arXiv ID:
2605.07711
arXiv 提交日期: 2026-05-08
SimCT:为跨分词器同策略蒸馏恢复丢失的监督信号 / SimCT: Recovering Lost Supervision for Cross-Tokenizer On-Policy Distillation
1️⃣ 一句话总结
针对教师和学生模型使用不同分词器时,传统同策略蒸馏方法会因词汇不匹配而丢失大量监督信号的问题,本文提出SimCT方法,通过引入短多词连续片段作为共同监督单元,在不改变蒸馏损失函数形式的前提下恢复了丢失信号,在数学推理和代码生成任务上显著优于现有基线方法。