arXiv ID:
2605.14071
arXiv 提交日期: 2026-05-13
面向大语言模型的分布校正离线数据蒸馏 / Distribution Corrected Offline Data Distillation for Large Language Models
1️⃣ 一句话总结
本文提出了一种离线推理蒸馏方法,通过自适应地强调与模型自生成分布更一致的教师监督信号,来修正传统离线蒸馏中教师与学生之间的分布偏差,从而在不依赖在线采样的前提下提升小模型在数学推理任务上的准确性和稳定性。