arXiv ID:
2606.22942
arXiv 提交日期: 2026-06-22
理解后训练阶段的知识蒸馏:何时有效与何时失效 / Understanding Knowledge Distillation in Post-Training: When It Helps and When It Fails
1️⃣ 一句话总结
本研究系统分析了在大型语言模型的后训练阶段中,知识蒸馏技术如何帮助小型学生模型提升性能,发现当训练数据较少时蒸馏效果显著优于传统微调,但在数据充足时优势减弱;不过,若使用更强的指令微调教师模型,即使在数据丰富的情况下也能带来明显提升,并针对数据稀缺场景提出了一个两阶段蒸馏策略来进一步优化模型性能。