arXiv ID:
2512.02231
arXiv 提交日期: 2025-12-01
看、听、懂:评测多模态大语言模型中对人类语音的视听理解能力 / See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为AV-SpeakerBench的新评测基准,专门用于严格评估多模态大模型在真实视频中,能否将说话人、说话内容和说话时间精准关联起来进行细粒度推理,并发现现有模型在此任务上仍有明显不足。