← 返回列表

🤖 系统

📄 Abstract - Reinforcement Mid-Training: A New Intermediate Stage for Large Language Model Development

⏳ 正在获取摘要...

顶级标签: llm

📄 论文总结

强化学习中训练：大型语言模型开发的新中间阶段 / Reinforcement Mid-Training: A New Intermediate Stage for Large Language Model Development

1️⃣ 一句话总结

本文提出强化学习中训练（RMT）作为预训练和后训练之间的新中间阶段，通过动态令牌预算、课程自适应采样和双重训练策略，在仅21%推理长度下实现64.91%的性能提升，并为后续后训练提供更强模型基础。

2️⃣ 论文创新点

1. 强化学习中训练框架

创新点：在预训练和后训练之间引入中间阶段，利用大规模无标签预训练数据系统性增强复杂推理能力
区别/改进：解决了传统两阶段方法忽略中间阶段的问题，通过更针对性目标提升模型能力
意义：为模型开发提供新范式，显著提升性能并减少推理成本

2. 动态令牌预算机制

创新点：通过指数衰减公式动态约束推理过程的令牌使用量，平衡效率与质量
区别/改进：针对推理步骤过多导致的训练低效和计算开销问题
意义：提高训练和推理效率，减少资源消耗

3. 课程自适应采样方法

创新点：基于令牌熵值识别难度级别，从易到难逐步学习，适应令牌熵分布不平衡
区别/改进：解决现有方法盲目采样高难度令牌导致模型早期训练过载的问题
意义：促进渐进式学习轨迹，提升模型学习稳定性和效果

4. 双重训练策略

创新点：结合选择性强化学习与下一令牌预测，确保关键令牌针对性学习和所有令牌信息充分利用
区别/改进：针对令牌信息利用不足的问题
意义：最大化令牌信息利用，提升模型整体能力

3️⃣ 主要结果与价值

结果亮点

在语言建模任务中，RMT模型仅用21%推理长度即实现高达64.91%的性能提升
持续后训练实验中，RMT-Q3模型相比最强基线提升18.76%，准确率从25.17%提升至64.33%
相比传统推理方法，响应长度减少79-88%，生成时间显著降低
消融实验证明动态令牌预算、课程自适应采样和下一令牌预测损失均为关键组件

实际价值

显著降低模型训练和推理的计算成本
为下游后训练任务提供更强的模型基础
生成的推理链更简洁、准确且连贯，提高实际应用可靠性
适用于复杂数学推理等需要深度思考的任务场景

4️⃣ 术语表

RMT：强化学习中训练，在预训练和后训练之间的中间阶段，使用强化学习在大规模无标注预训练数据上优化模型，旨在提升后续下游任务性能
令牌熵：反映令牌的不确定性和学习难度，分布不平衡是现有方法忽略的关键挑战之一
令牌预算：动态的、随训练步数指数衰减的约束，用于限制推理过程的令牌生成长度，以平衡效率和质量
GRPO：组相对策略优化，一种强化学习算法，通过计算组相对优势来获得稳定的学习信号
NTP：下一令牌预测，在语言建模中起关键作用的损失函数，确保所有令牌都能为训练做出贡献
课程学习：一种训练策略，让模型从简单样本开始学习，逐步过渡到复杂样本

📄 打开原文 PDF