arXiv ID:
2606.19327
重新思考奖励监督:基于评分准则的自蒸馏方法 / Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation
1️⃣ 一句话总结
本文提出一种新的训练推理模型的方法,通过引入详细的评分准则(rubrics)作为结构化反馈,让学生模型从自身的推理过程中学习,避免了传统蒸馏依赖昂贵且可能有错的标准答案,以及强化学习仅用单一分数指导的不足,从而在科学推理任务上取得了比现有方法更好的效果。