📄 论文总结
基于最后令牌自奖励的强化学习 / Reinforcement Learning with Last-Token Self-Rewarding
1️⃣ 一句话总结
LaSeR方法通过从生成序列最后一个令牌的概率分布中直接获取自奖励信号,以最小额外成本联合优化大语言模型的推理和自验证能力。
2️⃣ 论文创新点
1. 最后令牌自奖励理论
- 创新点:揭示了自验证强化学习目标的闭式解可简化为策略模型在解决方案最后一个令牌处对预测令牌的下一个令牌对数概率与预估常数的差值
- 区别/改进:避免了传统方法中需要两个独立提示模板生成解决方案和自验证的步骤
- 意义:显著提高了效率,仅需一个额外令牌推理成本,同时提升了模型推理性能和自奖励能力
2. LaSeR算法设计
- 创新点:通过在原始RLVR损失上增加MSE损失,对齐最后一个令牌的自奖励分数与基于验证器的推理奖励
- 区别/改进:在训练和测试中均可使用优化的自奖励分数来提升模型性能
- 意义:实现了近乎零额外成本下的推理和自验证能力联合优化,提升了推理时的扩展性能
3. 参考模型对数概率简化
- 创新点:发现参考模型下指定令牌的对数概率几乎为常数,可预计算为cref
- 区别/改进:消除了前向传播参考模型的需要,提高效率
- 意义:显著提升训练和推理效率,同时保持了方法的有效性
4. 自奖励损失重新加权
- 创新点:针对正确和错误解决方案数量不平衡问题,采用类别级损失重新加权策略
- 区别/改进:使用wc和wi权重因子平衡不同类别的样本影响
- 意义:获得更平衡的自验证能力
3️⃣ 主要结果与价值
结果亮点
- 在数学推理基准测试中,LaSeR在推理性能和自验证F1分数上均优于基线方法
- 通过自奖励分数加权的多数投票相比不加权的多数投票提升了推理时扩展性能
- 参考对数概率简化不影响推理和自验证性能的优化,保持了方法的有效性
实际价值
- 仅需一个额外令牌推理成本即可实现推理和自验证能力的联合优化
- 在测试时无需真实答案即可评估解决方案质量,解决了缺乏真实答案场景下的关键问题
- 显著提升了计算效率,同时保持了模型性能
4️⃣ 术语表
- RLVR:Reinforcement Learning with Verifiable Rewards,使用可验证奖励的强化学习,用于联合优化语言模型的推理和验证能力
- LaSeR:Reinforcement Learning with Last-Token Self-Rewarding,基于最后令牌自奖励的强化学习方法,直接从最终令牌概率分布获取奖励信号
- 自验证:模型评估自身输出正确性的能力,在测试时无需真实答案即可提供反馈信号
- 最后令牌自奖励分数:基于最后一个令牌对数概率分布的自奖励分数,rs = βv log(πθ(zc|x,y)/πref(zc|x,y))
- GRPO:一种强化学习方法,用于训练数学推理模型,作为验证LaSeR方法有效性的基础算法