arXiv ID:
2512.10739
用于奥赛级数学问题求解的长程推理智能体 / Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving
1️⃣ 一句话总结
这篇论文提出了一种名为OPV的新型验证器,它通过检查长推理链中总结性结果的推导过程,高效且准确地验证复杂数学问题的求解步骤,并利用主动学习框架以较低成本提升验证能力,从而显著提升了大型语言模型在奥赛级数学问题上的解答性能。