🤖 系统
09-28 15:35
📄 论文总结
基于方差课程强化学习的数学推理改进方法
Variance-based Curriculum Reinforcement Learning for Mathematical Reasoning
1️⃣ 一句话总结
本文提出VCRL框架,通过基于奖励方差的动态难度调整和回放学习机制,有效提升大语言模型在数学推理任务上的训练效率和性能表现。
2️⃣ 论文创新点
1. 方差课程强化学习框架
- 创新点是什么:基于组奖励方差的课程强化学习框架,动态控制训练样本难度
- 与已有方法的区别/改进:解决了现有强化学习方法未考虑样本难度与模型当前能力匹配的问题,模拟人类从易到难的学习过程
- 为什么有意义:提升LLM在数学推理任务上的学习效率和性能
2. 方差动态采样
- 创新点是什么:根据rollout组奖励方差选择训练样本,重点关注高方差样本
- 与已有方法的区别/改进:自动识别模型当前最适合学习的中等难度样本,避免过易或过难样本
- 为什么有意义:优化训练批次质量,提高学习效率
3. 回放学习机制
- 创新点是什么:结合记忆库机制,重复利用高价值训练样本
- 与已有方法的区别/改进:进一步利用方差信息指导样本选择,提升训练效率
- 为什么有意义:增强模型在关键学习点的训练效果
4. 记忆银行机制
- 创新点是什么:基于优先级的记忆银行,使用动量更新方法维护高价值查询
- 与已有方法的区别/改进:避免了重复计算p值的计算开销
- 为什么有意义:实现了基于方差的数据回放课程学习
3️⃣ 主要结果与价值
实验结果亮点
- 在AIME-2024、AIME-2025、MATH500、OlympiadBench、AMC23等多个数学推理基准上全面优于现有SOTA方法
- 在Qwen3-8B-Base模型上平均得分57.76,比最强基线GSPO高出4.67分,比基础模型提升24.8分
- 在高难度数据集上表现尤为突出,特别是在复杂多步推理问题上展现显著优势
- 训练初期快速提升,最终在所有基准测试中获得显著更好的结果
实际应用价值
- 为LLM对齐策略在增强数学推理能力方面提供了优越解决方案
- 有效解锁LLM处理高级数学问题所需的复杂推理能力
- 提高训练效率,实现快速性能提升
- 显著提升最终性能表现
4️⃣ 术语表
- VCRL:基于方差的课程强化学习框架,用于大语言模型训练,通过调整训练样本难度提高训练效率
- RLVR:带可验证奖励的强化学习,实现测试时缩放的验证技术
- GRPO:组相对策略优化,通过计算组内响应的相对优势来消除对价值模型的依赖
- GSPO:使用序列级重要性概率替代原始令牌级重要性概率的策略优化方法
- p值:归一化组方差,p=σ²/σ²_max,用于衡量查询对模型训练的价值
- OlympiadBench:一个具有挑战性的双语多模态科学问题基准,旨在促进AGI发展
- ToolSandbox:用于评估LLM工具使用能力的有状态、对话式、交互式评估基准
- PPO:近端策略优化算法