arXiv ID:
2602.12125
arXiv 提交日期: 2026-02-12
超越教师的学习:基于奖励外推的广义策略蒸馏 / Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation
1️⃣ 一句话总结
本文提出了一种改进的“策略蒸馏”方法,通过调整奖励权重和选择更合适的参考模型,使得学生模型不仅能有效学习教师模型的知识,甚至在特定情况下能超越教师的性能边界。