📄 论文总结
混合集成奖励优化:解决推理任务中的奖励信号挑战 / Hybrid Ensemble Reward Optimization: Addressing Reward Signal Challenges in Reasoning Tasks
1️⃣ 一句话总结
HERO是一种结合验证器锚定和奖励模型信号的强化学习框架,通过分层归一化和方差感知加权机制,在保持验证器可靠性的同时利用奖励模型的丰富信息,显著提升数学推理任务的性能。
2️⃣ 论文创新点
1. HERO混合框架
- 创新点:集成验证器锚定和密集奖励模型信号的强化学习框架,结合基于规则的验证器和奖励模型的优势
- 区别/改进:通过分层归一化和方差感知加权机制解决简单混合的不稳定性问题
- 意义:在保持验证器可靠性的同时利用奖励模型的丰富信息,为复杂推理任务提供更可靠的监督信号
2. 分层归一化方案
- 创新点:将奖励模型分数限制在验证器定义的正确性组内进行归一化处理
- 区别/改进:确保密集反馈仅在验证器认为正确的响应集内细化学习
- 意义:在保持正确性保证的同时利用细微差别,防止奖励黑客行为
3. 方差感知加权机制
- 创新点:自适应调整不同提示在训练中的贡献,强调高方差提示,减少简单提示的权重
- 区别/改进:解决简单提示梯度信号弱的问题,改进GRPO算法对所有提示一视同仁的缺点
- 意义:提高训练效率和效果,优化训练容量分配
3️⃣ 主要结果与价值
结果亮点
- 在数学推理基准测试中,HERO在三种训练机制下均优于仅使用RM或验证器的基线方法
- 在难以验证的任务上提升尤为显著,超越基线方法9.4分
- 在易验证任务上平均得分62.0,超越RM-only(56.4)和rule-based(58.3)
- 负样本密集奖励比正样本对训练稳定性和学习效率贡献更大
实际价值
- 使用紧凑的7B奖励模型即可获得良好效果,提供更好的效率和部署性
- 适用于可验证、难以验证和混合场景,提升模型推理泛化能力
- 为复杂推理任务提供更可靠的监督信号,防止训练停滞
4️⃣ 术语表
- HERO:混合集成奖励优化,一种结合奖励模型和验证器的混合集成奖励优化方法
- RLVR:从可验证奖励的强化学习,使用二元信号训练策略
- 分层归一化:将奖励模型连续分数按规则验证器分组进行归一化的方法,确保奖励信号语义对齐
- 方差感知加权:基于奖励模型分数方差为不同提示分配训练权重的机制
- GRPO:组相对策略优化,一种强化学习目标
- OpenMathReasoning:用于构建训练数据集的数学推理基准
- HardVerify_Math:专注于挑战性验证场景的数学基准,包含250个难以验证的数学问题
- 奖励黑客:奖励模型利用非预期模式快速提升奖励值但导致准确性崩溃的现象
- AUROC:受试者工作特征曲线下面积,用于衡量二元分类器的判别能力