arXiv ID:
2605.02782
arXiv 提交日期: 2026-05-04
当音频语言模型无法利用多模态上下文进行构音障碍语音识别时 / When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition
1️⃣ 一句话总结
本文研究发现,当前最先进的音频语言模型在识别构音障碍语音时,无法有效利用诊断标签、临床评分等附加的多模态上下文信息来提升识别准确率,但通过特殊的微调方法(LoRA)可以将词错误率降低52%,尤其对唐氏综合征和中度障碍患者效果显著。