arXiv ID:
2601.20088
用于NVFP4推理精度恢复的量化感知蒸馏 / Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery
1️⃣ 一句话总结
这篇论文提出了一种名为量化感知蒸馏(QAD)的方法,它能有效且稳定地将高精度大模型的“知识”迁移到经过压缩的4位量化模型中,从而在几乎不损失精度的情况下,让模型在资源受限的设备上高效运行。