🤖 系统
09-03 15:16
📄 论文总结
SimpleTIR:通过轨迹过滤稳定多轮工具集成推理训练
SimpleTIR: Stabilizing Multi-Turn Tool-Integrated Reasoning Training via Trajectory Filtering
1️⃣ 一句话总结
本文提出SimpleTIR方法,通过识别并过滤包含无效轮次(void turns)的轨迹来解决多轮工具集成推理训练中的不稳定性问题,实现了稳定的训练动态和显著的性能提升。
2️⃣ 论文创新点
1. SimpleTIR轨迹过滤算法
- 创新点是什么:一种通过识别并过滤掉包含无效轮次(如不完整代码或重复文本)的轨迹来稳定多轮TIR训练的算法
- 与已有方法的区别/改进:直接阻止了与低概率问题序列相关的高幅度有害梯度,解决了梯度爆炸问题
- 为什么有意义:提供了一种通用且即插即用的方法,无需大量修改现有训练框架,几乎无额外成本即可显著提高训练稳定性和性能
2. 无效轮次(Void Turn)的概念定义
- 创新点是什么:将LLM响应中既不包含完整代码块也不包含最终答案的生成(如部分代码、重复文本或由于过早采样eos令牌导致的不完整响应)定义为无效轮次
- 与已有方法的区别/改进:为识别和过滤导致训练不稳定的有害样本提供了明确标准
- 为什么有意义:这是理解和解决多轮TIR训练中分布偏移和梯度爆炸问题的关键概念基础
3. 分层MDP建模方法
- 创新点是什么:将多轮工具集成推理建模为分层马尔可夫决策过程,分离高层轮次策略和低层令牌生成策略
- 与已有方法的区别/改进:解决了多轮TIR的组合结构带来的训练挑战
- 为什么有意义:为端到端强化学习训练多轮TIR智能体提供了理论基础
4. 反馈令牌屏蔽技术
- 创新点是什么:在训练过程中使用二进制掩码,只在代理生成响应令牌时累积损失,排除环境提供的反馈令牌
- 与已有方法的区别/改进:确保正确的信用分配,避免反馈令牌影响梯度计算
- 为什么有意义:提高了多轮TIR训练的稳定性和效率
3️⃣ 主要结果与价值
实验结果亮点
- SimpleTIR-7B和SimpleTIR-32B在所有基线模型中表现最佳,显著优于基础模型和其他Zero RL方法
- 在多个数学推理数据集(Math500、AIME24、AIME25、AMC23和Hmmt Feb 25)上均显示出优异性能
- 支持最多10轮代码执行,通过逐步增加响应长度和交互轮数优化训练效果
实际应用价值
- 提供了一种不依赖冷启动人类数据的可扩展路径,为端到端多轮TIR RL训练提供了新范式
- 几乎无需额外成本即可显著提高训练稳定性和模型性能
- 使模型能够处理更复杂的多步推理任务,提高解决实际问题的能力
4️⃣ 术语表
- SimpleTIR:一种用于稳定多轮工具集成推理(TIR)训练的轨迹过滤算法,通过过滤无效轮次来实现稳定训练
- Void Turn:在多轮TIR中,LLM生成的既不包含完整代码块也不包含最终答案的无效响应轮次,通常是分布偏移的症状
- 多轮TIR:多轮工具集成推理,模型通过多轮交互使用外部工具进行推理
- Zero RL:零样本强化学习设置,直接从未对齐的基础模型开始训练,不依赖领域数据、指令调优或其他监督
- 分层MDP:分层马尔可夫决策过程,将决策分为高层策略(控制对话轮次序列)和低层策略(生成每轮内的令牌)
- GRPO:组相对策略优化,通过计算组内轨迹的相对性能来计算优势值,避免需要学习价值函数
- Tool-Integrated Reasoning:工具集成推理,LLMs结合外部工具进行多轮推理的方法
- entropy collapse:强化学习训练中的一种不稳定性现象,表现为策略熵的急剧下降
- gradient norm explosions:训练过程中梯度范数异常增大的问题,可能导致训练不稳定