← 返回列表

🤖 系统

📄 Abstract - Hybrid Ensemble Reward Optimization: Addressing Reward Signal Challenges in Reasoning Tasks

⏳ 正在获取摘要...

📄 论文总结

混合集成奖励优化：解决推理任务中的奖励信号挑战 / Hybrid Ensemble Reward Optimization: Addressing Reward Signal Challenges in Reasoning Tasks

1️⃣ 一句话总结

HERO是一种结合验证器锚定和奖励模型信号的强化学习框架，通过分层归一化和方差感知加权机制，在保持验证器可靠性的同时利用奖励模型的丰富信息，显著提升数学推理任务的性能。

2️⃣ 论文创新点

1. HERO混合框架

创新点：集成验证器锚定和密集奖励模型信号的强化学习框架，结合基于规则的验证器和奖励模型的优势
区别/改进：通过分层归一化和方差感知加权机制解决简单混合的不稳定性问题
意义：在保持验证器可靠性的同时利用奖励模型的丰富信息，为复杂推理任务提供更可靠的监督信号

2. 分层归一化方案

创新点：将奖励模型分数限制在验证器定义的正确性组内进行归一化处理
区别/改进：确保密集反馈仅在验证器认为正确的响应集内细化学习
意义：在保持正确性保证的同时利用细微差别，防止奖励黑客行为

3. 方差感知加权机制

创新点：自适应调整不同提示在训练中的贡献，强调高方差提示，减少简单提示的权重
区别/改进：解决简单提示梯度信号弱的问题，改进GRPO算法对所有提示一视同仁的缺点
意义：提高训练效率和效果，优化训练容量分配

3️⃣ 主要结果与价值

结果亮点

在数学推理基准测试中，HERO在三种训练机制下均优于仅使用RM或验证器的基线方法
在难以验证的任务上提升尤为显著，超越基线方法9.4分
在易验证任务上平均得分62.0，超越RM-only(56.4)和rule-based(58.3)
负样本密集奖励比正样本对训练稳定性和学习效率贡献更大

实际价值

使用紧凑的7B奖励模型即可获得良好效果，提供更好的效率和部署性
适用于可验证、难以验证和混合场景，提升模型推理泛化能力
为复杂推理任务提供更可靠的监督信号，防止训练停滞

4️⃣ 术语表

HERO：混合集成奖励优化，一种结合奖励模型和验证器的混合集成奖励优化方法
RLVR：从可验证奖励的强化学习，使用二元信号训练策略
分层归一化：将奖励模型连续分数按规则验证器分组进行归一化的方法，确保奖励信号语义对齐
方差感知加权：基于奖励模型分数方差为不同提示分配训练权重的机制
GRPO：组相对策略优化，一种强化学习目标
OpenMathReasoning：用于构建训练数据集的数学推理基准
HardVerify_Math：专注于挑战性验证场景的数学基准，包含250个难以验证的数学问题
奖励黑客：奖励模型利用非预期模式快速提升奖励值但导致准确性崩溃的现象
AUROC：受试者工作特征曲线下面积，用于衡量二元分类器的判别能力

📄 打开原文 PDF