建模混淆矩阵以提高语音识别准确率,并应用于构音障碍语音

建模混淆矩阵以提高语音识别准确率,并应用于构音障碍语音

原文:Modelling confusion matrices to improve speech recognition accuracy, with an application to dysarthric speech

引言

构音障碍的定义与影响

构音障碍的特征
  • 构音障碍是一种运动性语音障碍,表现为发音肌肉的无力、瘫痪或协调不良。
  • 可由中风、脑瘫、创伤性脑损伤或退行性神经疾病(如帕金森病或阿尔茨海默病)引起。
  • 影响肺部、喉部、口腔咽部、鼻咽部、软腭和发音器官(嘴唇、舌头、牙齿和下颌)等肌肉。
自动语音识别(ASR)系统的挑战
  • ASR系统在处理构音障碍语音时面临低可理解性和有限词汇量的问题。
  • 构音障碍患者的语音模式因个体差异而异,需要不同的ASR类型。
  • 主要错误因素包括音素替换、删除和插入导致的可理解性下降及有限的音素库。

将混淆矩阵

你可能感兴趣的:(声音的未来:语音识别文献解读,矩阵,语音识别,线性代数)