🤖 系统
09-09 20:57
📄 论文总结
TraceRL:用于扩散语言模型的轨迹感知强化学习框架
TraceRL: A Trajectory-Aware Reinforcement Learning Framework for Diffusion Language Models
1️⃣ 一句话总结
TraceRL是一种创新的强化学习框架,通过将偏好的推理轨迹纳入后训练,显著提升了扩散语言模型在复杂数学和编程推理任务中的性能,并开发出了先进的TraDo模型系列。
2️⃣ 论文创新点
1. TraceRL框架
- 创新点是什么:一种轨迹感知的强化学习框架,专门为扩散语言模型设计,通过优化偏好推理轨迹实现高效后训练
- 与已有方法的区别/改进:解决了现有后训练框架因随机掩码导致的与最优推理过程不匹配的问题
- 为什么有意义:适用于不同架构(全注意力和块注意力模型),实现快速优化,提升推理性能
2. 基于扩散的价值模型
- 创新点是什么:一种增强训练稳定性的价值模型,用于估计步骤级价值
- 与已有方法的区别/改进:提高了强化学习训练的稳定性
- 为什么有意义:支持TraceRL框架的有效训练
3. TraDo模型系列
- 创新点是什么:应用TraceRL得到的最先进的扩散语言指令模型
- 与已有方法的区别/改进:在较小规模下性能超越更大规模的自回归模型
- 为什么有意义:展示了扩散语言模型在复杂推理任务上的强大潜力
4. 块适应能力
- 创新点是什么:TraceRL框架可使特定块模型适应更大块
- 与已有方法的区别/改进:改善了采样灵活性
- 为什么有意义:增强了模型的应用范围
3️⃣ 主要结果与价值
实验结果亮点
- TraDo-4B-Instruct在复杂数学推理任务上一致优于7B规模的自回归模型
- TraDo-8B-Instruct在数学推理基准上相对Qwen2.5-7B-Instruct和Llama3.1-8B-Instruct分别有6.1%和51.3%的准确率提升
- 首个长思维链DLM在MATH500上相对Qwen2.5-7B-Instruct有18.1%的相对准确率增益
实际应用价值
- 提供了全面的开源框架用于构建、训练和部署跨不同架构的扩散LLMs
- 集成了加速KV缓存技术和推理引擎,支持高效并行生成
- 动态采样策略实现15.4%的速度提升,同时保持高精度
4️⃣ 术语表
- TraceRL:轨迹感知强化学习框架,用于扩散语言模型,将偏好推理轨迹纳入后训练
- TraDo:通过TraceRL得到的一系列最先进的扩散语言模型
- 扩散语言模型(DLMs):采用并行解码策略的语言模型,与自左向右的自回归模型相对
- 半自回归微调:一种微调方法,训练语言模型基于早期上下文生成后续令牌,使用块注意力保持扩散语言模型的高效采样特性
- 动态采样:并行解码策略,每步选择所有超过阈值置信度的令牌进行未掩码处理
- 静态采样:并行解码策略,每步固定选择置信度最高的令牌进行未掩码处理
- 掩码扩散模型(MDMs):用于大规模扩散语言模型的可扩展架构,利用双向注意力机制实现更强的全局一致性和并行解码