arXiv ID:
2601.14209
干预训练:解决大语言模型推理中的信用分配问题 / InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning
1️⃣ 一句话总结
本文提出了一种名为“干预训练”的新方法,通过让大语言模型自我验证并生成单步修正指令,来精准定位和纠正推理轨迹中的首个错误,从而有效解决了强化学习中长期存在的信用分配问题,显著提升了模型在复杂数学推理等任务上的性能。