🤖 系统
11-30 17:42
📄 论文总结
GroundedPRM:基于树引导和保真度感知的过程奖励建模用于步骤级推理 / GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning
1️⃣ 一句话总结
这篇论文提出了一种名为GroundedPRM的新方法,通过结合树搜索算法和外部工具验证,自动生成高质量的过程监督信号,从而显著提升大语言模型在多步推理任务中的准确性和可解释性,且所需训练数据量仅为现有最佳方法的10%。