← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

📄 论文总结

STEPWISER：通过生成式评判模型与强化学习进行元推理的逐步方法

STEPWISER: A Stepwise Method for Meta-Reasoning via Generative Critique Models and Reinforcement Learning

1️⃣ 一句话总结

STEPWISER是一种创新方法，通过生成式评判模型对策略模型的中间推理步骤进行元推理，结合强化学习训练而非传统监督微调，提供更准确的步骤判断，显著提升数学推理任务的评估性能。

2️⃣ 论文创新点

1. 生成式评判模型

创新点是什么：将逐步奖励建模从分类任务重构为推理任务，模型先对策略模型的推理步骤进行元推理，再输出最终判断。
与已有方法的区别/改进：替代了传统黑盒分类器式的过程奖励模型（PRMs），提供可解释的判断。
为什么有意义：提高了中间步骤的判断准确性，增强了泛化能力。

2. 强化学习训练

创新点是什么：使用rollouts的相对结果通过强化学习训练评判模型，而非依赖静态数据集的监督微调。
与已有方法的区别/改进：克服了基于监督微调的PRMs泛化能力有限的问题。
为什么有意义：使模型能适应新的推理模式，提升判断性能。

3. 自分割技术

创新点是什么：通过自分割技术使基础策略模型能够产生连贯且信息丰富的推理块（chunks-of-thought）。
与已有方法的区别/改进：提供了更结构化的中间推理步骤表示。
为什么有意义：为后续的元推理和奖励分配奠定了基础。

4. 基于Q值估计的逐步数据标注

创新点是什么：使用蒙特卡洛估计方法自动标注每个推理步骤的质量。
与已有方法的区别/改进：避免了昂贵的人工标注，实现了自动化步骤质量评估。
为什么有意义：为强化学习训练提供了高质量的逐步标注数据。

5. GRPO在线强化学习框架

创新点是什么：使用生成式强化策略优化进行在线训练逐步生成式评判模型。
与已有方法的区别/改进：提供明确的、在线的、逐步的监督信号。
为什么有意义：训练出最先进的生成式评判模型，提高评估准确性。

3️⃣ 主要结果与价值

实验结果亮点

在ProcessBench基准测试中显著优于所有基于监督微调的判别式分类器变体
使用Rel-Effective信号的7B模型达到61.9的平均分，远超过判别式基线的39.7分
自分割微调后模型在MATH500测试集上保持相当或略高的准确率，同时显著减少推理步骤数
在线强化学习相比拒绝采样微调，性能从23.1提升到36.2（1.5B模型）

实际应用价值

为数学推理步骤验证提供了更有效的策略
减少了模型响应中的冗余步骤，提高了计算效率
提供了可解释的推理过程评估，增强模型可信度
自动化标注方法降低了人工标注成本

4️⃣ 术语表

STEPWISER：一种逐步生成式评判模型，通过元推理对策略模型的推理步骤进行判断，并使用强化学习训练。
Process Reward Models (PRMs)：过程奖励模型，通过评估每个中间步骤而非仅最终答案来改进LLM多步推理可靠性的模型。
Chunks-of-Thought：通过自分割方法生成的连贯且信息丰富的推理块，代表完整的逻辑跃迁。
GRPO：生成式强化策略优化，用于在线训练逐步生成式评判模型的强化学习方法。
Monte Carlo (MC) rollouts：使用蒙特卡洛方法滚动估计推理步骤的Q值，以自动化生成过程监督信号。
Q-value：从某个推理步骤开始的期望最终奖励，用于评估该步骤的价值。
ProcessBench：用于测试识别推理轨迹中第一个错误步骤能力的基准，包含3500个数学问题-解决方案对。
自分割微调：一种微调技术，通过训练模型自动将响应分割成结构化步骤，减少冗余并提高组织性。

📄 打开原文 PDF