📄 论文总结
自适应推理框架AdaR:提升LLMs在数学推理中的鲁棒性和泛化能力 / AdaR: Adaptive Reasoning Framework for Enhancing Robustness and Generalization of LLMs in Mathematical Reasoning
1️⃣ 一句话总结
AdaR是一个通过合成高质量扰动数据和强化学习验证奖励训练来引导大语言模型进行自适应推理的框架,显著提升了数学推理任务的鲁棒性和泛化能力。
2️⃣ 论文创新点
1. 自适应推理框架设计
- 创新点:针对LLMs数学推理中的虚假推理问题,提出包含数据合成和模型训练两部分的框架,通过可控扰动和代码执行确保答案正确性
- 区别/改进:将文本逻辑转换为可执行代码,对变量集进行可控扰动生成新数据,结合代码执行和完整性检查确保数据质量
- 意义:提升LLMs在数学推理任务中的鲁棒性和泛化能力,实现高性能且保持数据效率
2. 可控扰动与完整性检查机制
- 创新点:在保持问题解决逻辑不变的前提下扰动变量值,包含变量对齐、代码可执行性和有效解存在性三个维度的验证
- 区别/改进:避免LLMs扰动的不确定性,保持数值类型和符号不变,综合检查确保扰动数据的合理性
- 意义:确保数值有效性,控制扰动幅度,过滤错误输出,保证数据质量和可控性
3. RLVR与合成数据结合的训练策略
- 创新点:将强化学习验证奖励与合成数据相结合,通过扰动查询比较不同推理过程获得的奖励
- 区别/改进:解决了传统RLVR无法区分虚假推理和自适应推理的问题,改进了传统单一查询评估的局限性
- 意义:促进模型发展自适应推理能力,减少对虚假推理的依赖
3️⃣ 主要结果与价值
结果亮点
- 仅使用9K合成数据,在多个基础模型上平均性能提升8.50分,超越其他方法
- 在三个层面上提升模型鲁棒性和泛化能力:训练中见过的查询的扰动变量值、训练中未见过查询的扰动变量值以及领域外数据
- 方法有效性与基础模型的初始数学推理能力正相关,在Qwen2.5-MATH、DeepSeekMath和Llama3上分别带来+17.69、+10.53和+5.26个百分点的提升
实际价值
- 证明了小规模合成数据能带来显著性能提升,降低了高质量数据合成的成本
- 框架可扩展到Instruct模型,并能进一步提升其性能,具有广泛适用性
- 通过代数思维培养,使模型能够平等对待已知和未知变量,通过变量计算解决问题
4️⃣ 术语表
- spurious reasoning:LLMs基于问题的表面特征而非正确的解题逻辑生成答案的推理过程,导致答案与推理轨迹之间缺乏因果联系
- adaptive reasoning:理想的推理过程,模型依赖正确的解题逻辑,能够适应变量值的变化并展现出更强的泛化能力,体现代数思维
- AdaR:自适应推理框架,包括数据合成和模型训练两部分,通过可控扰动和代码执行增强模型推理能力
- RLVR:强化学习验证奖励,通过验证器评估模型响应来最大化奖励函数,用于训练模型改进自适应推理
- ILO:影响逻辑顺序指标,通过比较正确CoT和乱序CoT的困惑度变化来量化自适应推理能力
- DAPO:用于所有RLVR训练过程的算法,因其更快的收敛速度和无需价值模型而降低了训练时间和计算资源需求