arXiv ID:
2604.26779
arXiv 提交日期: 2026-04-29
通过系统集成的推测解码加速强化学习后训练中的推理生成 / Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding
1️⃣ 一句话总结
本文提出在强化学习后训练阶段,通过集成推测解码技术(一种无损加速方法)来加速自回归推理生成,实验证明在8B参数模型下同步RL可将推理吞吐量提升1.8倍,并预测在235B规模下异步RL可带来2.5倍的端到端训练加速。