arXiv ID:
2601.14243
arXiv 提交日期: 2026-01-20
Jet-RL:通过统一的训练与执行精度流实现基于策略的FP8强化学习 / Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow
1️⃣ 一句话总结
这篇论文提出了一种名为Jet-RL的新框架,它通过让强化学习的训练和执行阶段都使用统一的低精度(FP8)计算格式,解决了现有混合精度方法导致的训练不稳定和性能崩溃问题,从而在显著提升训练速度的同时保证了模型的稳定收敛和最终性能。