🤖 系统
10-07 10:57
📄 论文总结
基于响应长度的动态采样策略优化
Length-aware Sampling for Policy Optimization
1️⃣ 一句话总结
本文提出LSPO算法,通过基于响应长度的动态采样机制筛选训练数据,保留最短和最长的响应进行训练,有效提升大语言模型在推理任务中的性能和训练效率。
2️⃣ 论文创新点
1. 长度感知动态采样算法
- 创新点是什么:提出LSPO算法,根据响应长度的百分位数动态过滤中间长度样本,仅保留最短30%和最长65%-95%的响应进行训练
- 与已有方法的区别/改进:替代传统仅基于准确率的过滤方法,使梯度集中在信息量最大的样本上
- 为什么有意义:解决过思考问题,提升模型推理效果和训练效率
2. 双极端长度训练策略
- 创新点是什么:同时使用极短和极长响应进行训练,相比仅使用中等长度响应效果更佳
- 与已有方法的区别/改进:揭示了响应长度极端值在训练中的互补作用
- 为什么有意义:通过选择长度极端的数据进行训练,有效提升模型性能
3. 元启发式训练框架
- 创新点是什么:LSPO作为元启发式方法可与任何强化学习算法结合
- 与已有方法的区别/改进:在GSPO、DAPO、GRPO等基础算法上进一步提升训练效果
- 为什么有意义:不仅提供性能优势,还提高了达到相同模型性能的训练效率
3️⃣ 主要结果与价值
实验结果亮点
- 在Qwen和Llama模型上验证,在AIME-25、Olympiad和Minerva-Math等多个基准测试中均提升性能
- Llama-3.2-4B模型实验显示LSPO在训练收敛时持续提供性能优势,峰值性能超越DAPO
- 几乎不增加额外rollout成本,解决了DAPO在DAPO-17K数据集上训练时间过长的问题
实际应用价值
- 提升大语言模型在数学推理等复杂任务上的准确率
- 显著提高强化学习训练效率,特别适合资源受限的小型模型
- 为推理任务的动态采样提供新思路,可扩展到其他任务领域
4️⃣ 术语表
- LSPO:Length-aware Sampling for Policy Optimization,基于响应长度的策略优化采样算法,通过动态过滤机制选择训练样本
- RLVR:Reinforcement Learning with Verifiable Rewards,基于可验证奖励的强化学习,用于语言模型推理训练
- DAPO:Dynamic Accuracy-aware Policy Optimization,动态精度感知策略优化方法,采用非对称裁剪和动态采样
- GRPO:Group Relative Policy Optimization,组相对策略优化,一种无需单独critic模型的PPO变体
- DAPO-17K:包含17K数学问题数据点的训练数据集,来自多个来源,所有答案都转换为整数格式