📄 论文总结
基于影响函数的数据选择方法增强大语言模型在可验证奖励强化学习中的推理能力 / Data Selection via Influence Functions for Enhancing LLM Reasoning in RL with Verifiable Rewards
1️⃣ 一句话总结
本文提出了一种基于影响函数的数据选择方法CROPI,通过离线策略影响估计和稀疏随机投影技术,在可验证奖励强化学习中实现了高效的课程学习,仅使用10%数据即可达到2.66倍的训练加速效果。
2️⃣ 论文创新点
1. 离线策略影响估计
- 创新点:利用预收集的离线轨迹高效评估数据点对在线策略的影响,避免昂贵的策略rollout成本
- 区别/改进:消除了传统在线影响估计中实时采样的需求,为RLVR数据选择提供理论基础
- 意义:使实时影响估计在大型语言模型中变得可行
2. 稀疏随机投影
- 创新点:在随机投影前随机丢弃部分梯度维度,只对选中的子集进行投影的降维技术
- 区别/改进:相比直接随机投影能更高效准确地保持内积的秩保持特性,将相似度排名精度从13%提升至80%
- 意义:解决了大模型高维梯度带来的存储和数值噪声问题
3. CROPI框架
- 创新点:基于离线策略影响指导的课程强化学习框架,通过迭代选择对当前策略最具影响力的数据子集进行训练
- 区别/改进:相比静态估计数据效用的基线方法,能适应策略演化,避免性能平台期
- 意义:实现了高效的数据利用和训练加速,在早期训练阶段效果尤为明显
4. POPI估计器
- 创新点:结合离线策略梯度估计和稀疏随机投影的实用离线策略影响估计方法
- 区别/改进:使用余弦相似度计算梯度特征间的相似性,消除了梯度范数偏差
- 意义:为课程RL提供了可靠的数据影响力评估工具
3️⃣ 主要结果与价值
结果亮点
- 在1.5B模型上仅使用10%数据即可实现2.66倍的步级加速
- 在数学推理任务上 consistently 优于全数据训练和其他数据选择基线
- 展现出强大的泛化能力,在未针对性基准测试上显著提升模型整体推理性能
- 在线通过率从0.75提升至0.87,证明模型能有效学习挑战性问题
实际价值
- 大幅降低RL训练的计算成本和数据需求
- 为大规模模型训练提供了可扩展的数据选择方案
- 自动识别最具学习价值的数据样本,提升训练效率
- 可应用于多轮对话、多模态任务等复杂场景
4️⃣ 术语表
- RLVR:Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习,用于LLM推理过程建模
- CROPI:Curriculum RL with Off-Policy Influence Guidance,基于离线策略影响指导的课程强化学习框架
- POPI:Practical Off-Policy Influence estimation,实用的离线策略影响估计方法
- 影响函数:Influence Function,基于梯度的数据归因方法,用于估计单个数据点对目标函数变化的贡献
- 稀疏随机投影:Sparse Random Projection,随机选择部分梯度维度进行投影的技术,用于降低计算复杂度同时保持梯度特征相似度
- 离线策略梯度:Off-Policy Gradient,使用行为策略生成的离线轨迹来计算当前策略梯度的技术