arXiv ID:
2604.21916
arXiv 提交日期: 2026-04-23
数学对决:评估大型语言模型既出题又解题的能力 / MathDuels: Evaluating LLMs as Problem Posers and Solvers
1️⃣ 一句话总结
本文提出了一种名为MathDuels的新型评估方法,让大语言模型在对抗性环境中既扮演“出题者”又扮演“解题者”,从而揭示出传统静态测试无法区分的模型能力差异,并且随着更强模型的加入,题目难度会自动提升、避免测试天花板效应。