arXiv ID:
2606.25391
arXiv 提交日期: 2026-06-24
从声音到场景:评估大型音频语言模型上下文感知听觉场景理解的基准测试 / From Sounds to Scenes: A Benchmark for Evaluating Context-Aware Auditory Scene Understanding in Large Audio Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为CASU的基准测试,专门用来评估大型音频语言模型能否像人类一样,在包含多种声音(如对话、背景噪音、环境音)的真实场景中综合理解整体听觉内容,而不仅仅是识别单一声音类型。