arXiv ID:
2606.11709
基于对比策略的强化学习自蒸馏方法 / RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation
1️⃣ 一句话总结
该论文提出RLCSD方法,通过对比正确与错误提示下的师生分布差异,解决了在线自蒸馏中模型偏好模仿风格而非推理内容的问题,从而在数学和逻辑推理任务上稳定提升模型性能。