arXiv ID:
2605.20402
arXiv 提交日期: 2026-05-19
分解MXFP4量化误差以用于大语言模型强化学习:可约减的偏差、可恢复的死区和不可约的底噪 / Decomposing MXFP4 quantization error for LLM reinforcement learning: reducible bias, recoverable deadzone, and an irreducible floor
1️⃣ 一句话总结
该研究首次将MXFP4低精度计算在强化学习训练大语言模型时产生的量化误差,精确拆解为三种不同成分(缩放偏差、死区截断和网格噪声),并针对每种成分设计了专门的修复策略,从而在保持计算加速的同时,将模型性能恢复到接近或超过全精度(BF16)的水平。