🤖 系统
10-11 12:26
📄 论文总结
强化学习中训练:大型语言模型开发的新中间阶段 / Reinforcement Mid-Training: A New Intermediate Stage for Large Language Model Development
1️⃣ 一句话总结
本文提出强化学习中训练(RMT)作为预训练和后训练之间的新中间阶段,通过动态令牌预算、课程自适应采样和双重训练策略,在仅21%推理长度下实现64.91%的性能提升,并为后续后训练提供更强模型基础。
2️⃣ 论文创新点
1. 强化学习中训练框架
- 创新点:在预训练和后训练之间引入中间阶段,利用大规模无标签预训练数据系统性增强复杂推理能力
- 区别/改进:解决了传统两阶段方法忽略中间阶段的问题,通过更针对性目标提升模型能力
- 意义:为模型开发提供新范式,显著提升性能并减少推理成本
2. 动态令牌预算机制
- 创新点:通过指数衰减公式动态约束推理过程的令牌使用量,平衡效率与质量
- 区别/改进:针对推理步骤过多导致的训练低效和计算开销问题
- 意义:提高训练和推理效率,减少资源消耗
3. 课程自适应采样方法
- 创新点:基于令牌熵值识别难度级别,从易到难逐步学习,适应令牌熵分布不平衡
- 区别/改进:解决现有方法盲目采样高难度令牌导致模型早期训练过载的问题
- 意义:促进渐进式学习轨迹,提升模型学习稳定性和效果
4. 双重训练策略
- 创新点:结合选择性强化学习与下一令牌预测,确保关键令牌针对性学习和所有令牌信息充分利用
- 区别/改进:针对令牌信息利用不足的问题
- 意义:最大化令牌信息利用,提升模型整体能力
3️⃣ 主要结果与价值
结果亮点
- 在语言建模任务中,RMT模型仅用21%推理长度即实现高达64.91%的性能提升
- 持续后训练实验中,RMT-Q3模型相比最强基线提升18.76%,准确率从25.17%提升至64.33%
- 相比传统推理方法,响应长度减少79-88%,生成时间显著降低
- 消融实验证明动态令牌预算、课程自适应采样和下一令牌预测损失均为关键组件
实际价值
- 显著降低模型训练和推理的计算成本
- 为下游后训练任务提供更强的模型基础
- 生成的推理链更简洁、准确且连贯,提高实际应用可靠性
- 适用于复杂数学推理等需要深度思考的任务场景
4️⃣ 术语表
- RMT:强化学习中训练,在预训练和后训练之间的中间阶段,使用强化学习在大规模无标注预训练数据上优化模型,旨在提升后续下游任务性能
- 令牌熵:反映令牌的不确定性和学习难度,分布不平衡是现有方法忽略的关键挑战之一
- 令牌预算:动态的、随训练步数指数衰减的约束,用于限制推理过程的令牌生成长度,以平衡效率和质量
- GRPO:组相对策略优化,一种强化学习算法,通过计算组相对优势来获得稳定的学习信号
- NTP:下一令牌预测,在语言建模中起关键作用的损失函数,确保所有令牌都能为训练做出贡献
- 课程学习:一种训练策略,让模型从简单样本开始学习,逐步过渡到复杂样本