arXiv ID:
2606.24648
arXiv 提交日期: 2026-06-23
ParaPairAudioBench:用于评估大语言音频模型裁判能力的副语言成对音频基准测试 / ParaPairAudioBench: Paralinguistic Pairwise Audio Benchmark for LALM-as-a-Judge
1️⃣ 一句话总结
这篇论文提出了一个名为ParaPairAudioBench的基准测试,包含5175对音频样本,专门用来检验大语言音频模型(LALM)在评估说话风格、语速、重音、年龄和性别这五种副语言特征时的表现,结果发现目前最好的模型在判断准确率上比人类还低32个百分点,并且经常在应该表示“无法判断”时做出错误选择。