arXiv ID:
2605.19561
arXiv 提交日期: 2026-05-19
TORQ:面向MXFP4量化的双层正交旋转方法 / TORQ: Two-Level Orthogonal Rotation for MXFP4 Quantization
1️⃣ 一句话总结
本文提出了一种无需重新训练的后量化框架TORQ,通过宏观和微观两层正交旋转,巧妙调整模型激活值的分布,解决了MXFP4格式在量化大语言模型时因激活分布不均衡导致的精度损失问题,使4位浮点量化的性能接近全精度推理。