arXiv ID:
2606.15576
arXiv 提交日期: 2026-06-14
在分叉点定位信用:基于路径条件的自蒸馏方法提升大语言模型推理能力 / Localizing Credit at the Divergence: Path-Conditioned Self-Distillation for LLM Reasoning
1️⃣ 一句话总结
本文提出了一种名为“回溯自蒸馏”的新方法,通过让模型在训练过程中参考同一批中成功的推理路径,而不是仅仅依赖最终答案,从而更精准地识别并强化推理链条中导致成功的关键决策点,显著提升了数学和代码推理任务的性能。