arXiv ID:
2604.07853
arXiv 提交日期: 2026-04-09
QaRL:一种面向快速稳定训练、解决训练-推理不匹配问题的量化感知强化学习方法 / QaRL: Rollout-Aligned Quantization-Aware RL for Fast and Stable Training under Training--Inference Mismatch
1️⃣ 一句话总结
这篇论文提出了一种名为QaRL的新方法,它通过让训练过程与低精度推理过程保持一致,并引入新的优化目标来防止生成错误文本,从而在利用量化技术加速大语言模型强化学习训练的同时,有效解决了由此引发的训练不稳定和性能下降问题。