arXiv ID:
2606.18844
从自身错误中学习:构建可学习的微反思轨迹用于自我蒸馏 / Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation
1️⃣ 一句话总结
本文提出了一种名为TAPO的新方法,通过让大语言模型在强化学习中对同一问题同时生成正确和错误的回答,并利用这种对比信息构建精细的修正训练轨迹,从而更准确地定位和纠正模型自身的推理错误,在多项数学推理测试中取得了比现有方法更稳定的性能提升。