← 返回列表

菜单

🤖 系统
📄 Abstract - SimpleTIR: Stabilizing Multi-Turn Tool-Integrated Reasoning Training via Trajectory Filtering
正在获取摘要...
顶级标签: llm agents
详细标签: tool-integrated reasoning reinforcement learning multi-turn reasoning trajectory filtering gradient stabilization 或 搜索:

📄 论文总结

SimpleTIR:通过轨迹过滤稳定多轮工具集成推理训练

SimpleTIR: Stabilizing Multi-Turn Tool-Integrated Reasoning Training via Trajectory Filtering


1️⃣ 一句话总结

本文提出SimpleTIR方法,通过识别并过滤包含无效轮次(void turns)的轨迹来解决多轮工具集成推理训练中的不稳定性问题,实现了稳定的训练动态和显著的性能提升。


2️⃣ 论文创新点

1. SimpleTIR轨迹过滤算法

2. 无效轮次(Void Turn)的概念定义

3. 分层MDP建模方法

4. 反馈令牌屏蔽技术


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF