← 返回列表

🤖 系统

📄 Abstract - GroundedPRM: A Tree-Guided and Fidelity-Aware Process Reward Modeling Framework

⏳ 正在获取摘要...

顶级标签: llm agents

📄 论文总结

基于树引导和保真度感知的过程奖励建模框架 / GroundedPRM: A Tree-Guided and Fidelity-Aware Process Reward Modeling Framework

1️⃣ 一句话总结

本文提出了GroundedPRM框架，通过蒙特卡洛树搜索构建结构化推理路径，利用外部工具验证中间步骤，结合混合奖励聚合机制，在仅使用10%数据的情况下在ProcessBench上实现了26%的相对性能提升。

2️⃣ 论文创新点

1. 树引导的推理路径构建

创新点：使用蒙特卡洛树搜索构建结构化推理路径，通过选择、扩展、模拟和反向传播四个阶段探索多样化推理轨迹
区别/改进：相比平坦采样方法更稳定且具备归因感知，支持细粒度信用分配
意义：解决了现有方法中的信用错误归因问题，实现稳定且归因感知的过程监督

2. 保真度感知的步骤验证机制

创新点：使用外部数学工具验证每个中间推理步骤的正确性，生成二进制验证标签
区别/改进：消除幻觉监督，提供精确的执行基础正确性信号
意义：确保奖励信号的事实保真度，提高推理可靠性

3. 混合奖励聚合机制

创新点：融合基于工具的步骤验证和MCTS引导推理路径反馈
区别/改进：结合步骤级验证和全局结果评估
意义：提供更全面的监督信号，平衡局部保真度和全局正确性

4. 理由增强的生成结构

创新点：将奖励信号格式化为理由增强的生成结构，输出二元决策并配对理由增强的证明
区别/改进：提高可解释性和与指令调优LLMs的兼容性
意义：增强模型的透明度和实用性

3️⃣ 主要结果与价值

结果亮点

在ProcessBench上仅使用10%训练数据实现26%相对性能提升，平均F1分数达39.7
在MATH、OlympiadBench和Omni-MATH子集上排名第一
仅使用40K自动标注样本就超越了需要更多数据的基线模型
奖励引导的贪心搜索策略显著提升最终答案正确率

实际价值

为高效训练奖励模型提供了新思路，证明可验证的结构化监督比单纯扩大数据规模更有效
提供利用奖励模型实时指导语言模型生成过程的有效方法
增强推理过程的可解释性，支持下游工作流集成
框架可扩展到任何能够定义和验证步骤级保真度的领域

4️⃣ 术语表

GroundedPRM：树引导和保真度感知的过程奖励建模框架，利用MCTS构建结构化推理路径，结合步骤级外部工具验证和融合价值-正确性奖励建模
ProcessBench：用于评估奖励模型在数学问题中监督步骤级推理能力的基准测试，包含LLM生成的解并由人类专家标注第一个错误步骤
MCTS：蒙特卡洛树搜索，用于构建结构化推理路径，通过选择、扩展、模拟和反向传播阶段评估步骤贡献并更新节点价值估计
UCT：树上置信区间上界，用于平衡探索与利用的树策略，通过估计值和探索奖励的权衡来选择动作
step-level fidelity：步骤级保真度，指在推理过程中每个步骤的正确性和可验证性
process supervision：过程监督，对推理过程的监督而不仅仅是最终结果的监督

📄 打开原文 PDF