arXiv ID:
2601.03986
arXiv 提交日期: 2026-01-07
基准的基准:对大语言模型评测基准的系统性评估 / Benchmark^2: Systematic Evaluation of LLM Benchmarks
1️⃣ 一句话总结
这篇论文提出了一个名为Benchmark^2的框架,用于评估现有大语言模型评测基准本身的质量好坏,发现不同基准质量差异很大,并证明用他们的方法筛选题目能大幅减少测试题量而不影响评估效果。