arXiv ID:
2606.12370
arXiv 提交日期: 2026-06-10
打破熵界限:通过带拒绝采样的多标记预测加速强化学习训练 / Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling
1️⃣ 一句话总结
本文提出了一种名为Bebop的方法,通过结合改进的拒绝采样技术和新的损失函数,解决了在强化学习训练大语言模型时,多标记预测技术(MTP)的接受率因模型熵波动而大幅下降的问题,从而将推理速度提升了1.8倍,且无需在强化学习过程中频繁更新MTP模块。