← 返回列表

🤖 系统

📄 Abstract - Length-aware Sampling for Policy Optimization

⏳ 正在获取摘要...

顶级标签: llm

📄 论文总结

基于响应长度的动态采样策略优化

Length-aware Sampling for Policy Optimization

1️⃣ 一句话总结

本文提出LSPO算法，通过基于响应长度的动态采样机制筛选训练数据，保留最短和最长的响应进行训练，有效提升大语言模型在推理任务中的性能和训练效率。

2️⃣ 论文创新点

1. 长度感知动态采样算法

创新点是什么：提出LSPO算法，根据响应长度的百分位数动态过滤中间长度样本，仅保留最短30%和最长65%-95%的响应进行训练
与已有方法的区别/改进：替代传统仅基于准确率的过滤方法，使梯度集中在信息量最大的样本上
为什么有意义：解决过思考问题，提升模型推理效果和训练效率

2. 双极端长度训练策略

创新点是什么：同时使用极短和极长响应进行训练，相比仅使用中等长度响应效果更佳
与已有方法的区别/改进：揭示了响应长度极端值在训练中的互补作用
为什么有意义：通过选择长度极端的数据进行训练，有效提升模型性能

3. 元启发式训练框架

创新点是什么：LSPO作为元启发式方法可与任何强化学习算法结合
与已有方法的区别/改进：在GSPO、DAPO、GRPO等基础算法上进一步提升训练效果
为什么有意义：不仅提供性能优势，还提高了达到相同模型性能的训练效率

3️⃣ 主要结果与价值

实验结果亮点

在Qwen和Llama模型上验证，在AIME-25、Olympiad和Minerva-Math等多个基准测试中均提升性能
Llama-3.2-4B模型实验显示LSPO在训练收敛时持续提供性能优势，峰值性能超越DAPO
几乎不增加额外rollout成本，解决了DAPO在DAPO-17K数据集上训练时间过长的问题

实际应用价值

提升大语言模型在数学推理等复杂任务上的准确率
显著提高强化学习训练效率，特别适合资源受限的小型模型
为推理任务的动态采样提供新思路，可扩展到其他任务领域

4️⃣ 术语表

LSPO：Length-aware Sampling for Policy Optimization，基于响应长度的策略优化采样算法，通过动态过滤机制选择训练样本
RLVR：Reinforcement Learning with Verifiable Rewards，基于可验证奖励的强化学习，用于语言模型推理训练
DAPO：Dynamic Accuracy-aware Policy Optimization，动态精度感知策略优化方法，采用非对称裁剪和动态采样
GRPO：Group Relative Policy Optimization，组相对策略优化，一种无需单独critic模型的PPO变体
DAPO-17K：包含17K数学问题数据点的训练数据集，来自多个来源，所有答案都转换为整数格式

📄 打开原文 PDF