arXiv ID:
2602.20629
arXiv 提交日期: 2026-02-24
QEDBENCH:量化大学水平数学证明自动评估中的对齐差距 / QEDBENCH: Quantifying the Alignment Gap in Automated Evaluation of University-Level Mathematical Proofs
1️⃣ 一句话总结
这篇论文通过发布一个名为QEDBench的新基准测试,量化了当前主流大语言模型在评估大学高年级数学证明时,其评分与人类专家评分之间存在显著且系统性的偏差,揭示了自动评估在复杂推理任务上的局限性。