arXiv ID:
2603.01502
arXiv 提交日期: 2026-03-02
模态鸿沟的解剖:剖析端到端语音大语言模型的内部状态 / Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs
1️⃣ 一句话总结
这篇论文研究发现,语音大模型性能不如纯文本模型的关键原因,并非简单的特征分布差异,而在于模型难以将语音信号中冗余、分散的语义信息高效地压缩成稳定的高层决策。