arXiv ID:
2604.24401
arXiv 提交日期: 2026-04-27
闪光的不一定是音频:重新审视音频-语言评估中的文本先验与音频依赖 / All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation
1️⃣ 一句话总结
该论文指出,当前大型音频-语言模型在许多测试中取得的高分,往往不是因为它们真正理解了音频信号,而是依赖文本或常识就能猜出答案,只有极少数问题才真正需要完整音频,因此现有基准测试并不可靠,作者提出了更严格的评估方法。