arXiv ID:
2605.28014
反思式策略内自蒸馏:面向跨领域语言模型推理 / ROSD: Reflective On-Policy Self-Distillation for Language Model Reasoning across Domains
1️⃣ 一句话总结
本文提出了一种名为ROSD的新方法,通过让语言模型在训练时反思自己的错误并只在错误位置进行针对性修正,从而显著提升了模型在熟悉和不熟悉问题上的推理能力。