arXiv ID:
2605.27984
arXiv 提交日期: 2026-05-27
KVoiceBench、KOpenAudioBench和KMMAU:用于评估语音语言模型的语言驱动型韩语语音基准测试集 / KVoiceBench, KOpenAudioBench, and KMMAU: Agent-Driven Korean Speech Benchmarks for Evaluating SpeechLMs
1️⃣ 一句话总结
本文针对当前语音语言模型评测过度集中于英语的问题,提出了两种将现有英文或通用语音基准转化为高质量韩语基准的方法,并基于此创建了三个包含1.2万多个样本的韩语评测集(KVoiceBench、KOpenAudioBench和KMMAU),实验发现不同模型在英语和韩语上的表现差异很大,且口语问答与音频理解能力之间存在互补性的短板,揭示了仅用英语评测无法暴露的多语言性能缺陷。