arXiv ID:
2605.27028
arXiv 提交日期: 2026-05-26
少即是多:用于同策略知识蒸馏的早期停止生成方法 / Less is More: Early Stopping Rollout for On-Policy Distillation
1️⃣ 一句话总结
本文发现同策略知识蒸馏中,当学生模型生成长文本后段时,教师模型的评分能力会因上下文偏离其训练分布而退化,因此提出一种简单的“早期停止生成”策略,只让学生生成前几个词条,便能在各种模型和任务上超越传统长文本蒸馏方法,同时显著提升训练效率和稳定性。