arXiv ID:
2606.29869
arXiv 提交日期: 2026-06-29
ARKD:基于自适应强化学习的双向KL散度蒸馏框架用于文本生成 / ARKD: Adaptive Reinforcement Learning-Guided Bidirectional KL Divergence Distillation for Text Generation
1️⃣ 一句话总结
该研究提出了一种利用强化学习动态平衡前向和反向KL散度的知识蒸馏新方法,从而在压缩语言模型时既能保留主要分布特征,又能更好建模长尾概率,显著提升了生成文本的质量和泛化能力。