arXiv ID:
2601.06329
arXiv 提交日期: 2026-01-09
论口语语言模型评估中全局词元困惑度的谬误 / On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation
1️⃣ 一句话总结
这篇论文指出,直接套用文本模型评估指标(全局词元困惑度)来评价口语生成模型是不准确的,并提出了一系列新的评估方法,这些新方法能更好地反映模型生成语音的真实质量,并显著缩小了最佳模型与人类水平之间的性能差距。