arXiv ID:
2602.22495
面向大语言模型推理的强化学习感知知识蒸馏 / Reinforcement-aware Knowledge Distillation for LLM Reasoning
1️⃣ 一句话总结
本文提出了一种名为RLAD的新方法,通过在强化学习训练过程中智能地选择时机模仿更强大的教师模型,成功地将复杂大模型的推理能力高效地压缩到更小、更快的模型中,解决了传统方法中目标冲突和分布不匹配的问题。