arXiv ID:
2601.10201
arXiv 提交日期: 2026-01-15
过程奖励学习提升大语言模型推理能力并拓宽推理边界 / PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary
1️⃣ 一句话总结
这篇论文提出了一种名为过程奖励学习(PRL)的新方法,它通过将最终结果的奖励分解为推理过程中的精细监督信号来训练大语言模型,从而在理论上更严谨、训练上更高效地提升了模型的推理能力和解决复杂问题的上限。