arXiv ID:
2606.01682
arXiv 提交日期: 2026-06-01
即用型大语言模型作为过程评分器:无需训练的数学推理替代方法 / Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning
1️⃣ 一句话总结
本文提出了一种无需额外训练的方法,利用现成的大语言模型作为过程评分器,通过逐块选择小模型生成的内容来引导数学推理,从而在不依赖奖励模型训练的情况下显著提升推理准确率,并减少了推理过程的长度。