arXiv ID:
2601.19532
当模型比评估者更聪明时,基准测试会趋于饱和 / Benchmarks Saturate When The Model Gets Smarter Than The Judge
1️⃣ 一句话总结
这篇论文通过构建一个高质量、经过人工审核的数学数据集(Omni-MATH-2),揭示了当前大语言模型基准测试中的一个关键问题:当模型能力超过评估工具(Judge)的理解水平时,评估工具本身的错误会掩盖模型间的真实性能差异,导致基准测试过早失效。