arXiv ID:
2605.06656
arXiv 提交日期: 2026-05-07
为什么全球大语言模型排行榜具有误导性:面向异构监督学习的小型模型组合 / Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML
1️⃣ 一句话总结
本文通过分析来自116种语言的50多个大语言模型的近9万次人类对比投票,指出全球统一的排名(如Bradley-Terry得分)具有误导性——因为不同语言、任务和时间的用户偏好存在强烈差异,导致排名结果内部矛盾;作者提出了一种“小模型组合”方法,只需选出少数几个模型就能覆盖绝大多数用户的偏好,从而更公平、有效地反映模型的实际表现。