干预训练:解决大语言模型推理中的信用分配问题 / InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning
1️⃣ 一句话总结
本文提出了一种名为“干预训练”的新方法,通过让大语言模型自我验证并生成单步修正指令,来精准定位和纠正推理轨迹中的首个错误,从而有效解决了强化学习中长期存在的信用分配问题,显著提升了模型在复杂数学推理等任务上的性能。
2️⃣ 论文创新点
1. 干预训练范式
- 创新点:一种创新的训练范式,模型通过对比自身生成的错误推理轨迹与参考答案,识别出第一个错误步骤,并生成一个针对性的、单步的修正指令,然后基于此修正指令生成一条新的、成功的推理轨迹。
- 区别/改进:改进了标准结果奖励式强化学习的信用分配方式,能够将奖励或惩罚精确地归因于导致成功或失败的具体步骤,而不是对整个成功轨迹进行奖励或对整个失败轨迹进行惩罚。
- 意义:为后续的强化学习训练提供了更好的模型初始化,显著提升了模型在复杂推理任务上的准确性和学习效率。
2. 自我提出的干预
- 创新点:该方法的核心是将识别错误步骤和搜索替代步骤这两个挑战合并为一个过程:模型直接基于当前(可能是错误的)推理轨迹,提出一个改进的(正确的)推理步骤。
- 区别/改进:避免了依赖昂贵的价值函数估计或需要步进式在线强化学习的传统方法,降低了实践复杂性,并利用了模型在遵循指令与解决问题之间难度不对称的特性。
- 意义:即使基础模型无法独立生成完整解决方案,也能通过验证和比较来生成有意义的修正步骤,实现了可扩展的信用分配。
3. 两阶段训练流程
- 创新点:提出先使用生成的干预数据进行监督微调,再进行强化学习的两阶段训练流程。SFT阶段让模型内化修正模式,RL阶段则进一步强化修正行为。
- 区别/改进:结合了SFT的精确行为模仿和RL的探索优化优势,使得模型能够从自身错误中学习并强化正确推理,实现了有效的信用分配。确定了最优的SFT配置(克隆前缀和干预步骤,排除后缀,并应用正确性过滤)。
- 意义:提供了一种简单有效的训练框架,利用干预数据修补基础模型,使其能够从原本在RL中会产生错误轨迹的难题中学习。
3️⃣ 主要结果与价值
结果亮点
- 在数学推理基准上,干预方法将4B参数基础模型的平均奖励从0.0713%提升至1.56%(22倍提升),并使可解决的问题数量从29个增加到80个(共334个问题)。
- 干预训练为后续在线强化学习提供了良好的初始化,在IMO-AnswerBench等基准上显著提升了模型准确性。
- 干预生成的质量与模型规模正相关,更大模型(30B)生成的干预在准确率和解决问题数量上均优于小模型(4B)。指令遵循能力是干预生成有效性的关键决定因素。
实际价值
- 提供了一种无需显式训练价值函数即可解决信用分配问题的实用方法,简化了训练流程并提高了计算效率。
- 证明了模型能够利用自我验证能力进行细粒度的信用分配,引导模型走向正确解,为后续的强化学习训练提供了更高质量的轨迹。
- 干预方法与基于提示的引导方法具有互补性,结合两者能获得最佳的问题覆盖率,更有效地利用参考解信息。
4️⃣ 术语表
- Intervention Training (InT):干预训练,一种训练范式。模型通过自我验证并针对推理轨迹中的错误步骤提出单步修正(干预),然后利用这些干预数据进行监督微调和强化学习,以实现细粒度的信用分配。
- credit assignment:信用分配问题,指在强化学习或序列决策中,如何将最终结果(奖励或惩罚)合理地归因于导致该结果的各个中间步骤或决策,以优化每个步骤的贡献。
- Self-Proposed Interventions:自我提出的干预,本文提出的方法,指LLM基于其自身生成的当前(可能错误的)推理轨迹,直接提出一个改进的(正确的)推理步骤。
- intervention (干预):在模型推理轨迹中,当检测到错误步骤时,由模型自身生成的一个用于替换原错误步骤的单个推理步骤,旨在将后续生成引导向正确答案。
- SFT (Supervised Fine-Tuning):监督微调,在本文上下文中特指使用生成的干预数据(由前缀和干预步骤组成)对基础语言模型进行微调,以使其内化修正模式。
- incorrect rollouts:错误的轨迹/展开,指在强化学习训练中生成的、未能得到正确答案的推理过程序列。
- coverage (覆盖率):在给定设置下,模型能够生成至少一个正确推理轨迹(在多次采样中)的问题数量占总问题数量的比例,用于衡量方法解决问题的能力范围。
- pass@k:评估指标,衡量在k次尝试中至少有一次成功的概率。