arXiv ID:
2605.02395
面向过程奖励模型的可控且可验证的过程数据合成 / Controllable and Verifiable Process Data Synthesis for Process Reward Models
1️⃣ 一句话总结
本文提出了一种新方法,能够自动生成高质量的训练数据(过程监督数据),帮助AI模型更好地识别推理过程中的每一步是否正确,从而提升模型在逻辑和数学推理任务中的表现。