arXiv ID:
2603.18678
arXiv 提交日期: 2026-03-19
词语的趣味:大型音频-语言模型在音频双关语理解上的基准测试 / Words at Play: Benchmarking Audio Pun Understanding in Large Audio-Language Models
1️⃣ 一句话总结
这篇论文提出了首个专门用于评估大型音频-语言模型理解音频双关语能力的基准测试APUN-Bench,通过系统测试发现现有模型在识别、定位和解释音频双关语方面存在显著不足,为提升AI对幽默语音的理解提供了关键洞见。