📄 论文总结
DeepAgent:具有可扩展工具集的通用推理智能体 / DeepAgent: A General Reasoning Agent with Scalable Toolsets
1️⃣ 一句话总结
DeepAgent是一个端到端的深度推理智能体,能够在单一连贯的推理过程中自主思考、动态发现工具并执行动作,通过自主记忆折叠机制和ToolPO强化学习策略解决了长视野交互中的上下文长度爆炸问题。
2️⃣ 论文创新点
1. 自主记忆折叠机制
- 创新点:受大脑启发的记忆架构,将过去的交互压缩为结构化的场景记忆、工作记忆和工具记忆
- 区别/改进:减少错误累积,同时保留关键信息,解决长交互历史管理问题
- 意义:显著提升系统效率,保持代理对任务的全局视角,防止陷入错误探索路径
2. ToolPO强化学习策略
- 创新点:为通用工具使用量身定制的端到端强化学习方法,利用LLM模拟API并通过工具调用优势归因分配细粒度信用
- 区别/改进:高效稳定地教授通用工具使用,提供更细粒度的学习信号
- 意义:解决了通用领域智能体强化训练中的不稳定、高成本和稀疏奖励问题
3. 动态工具发现机制
- 创新点:代理能够从任意规模的工具集中动态发现相关工具,而非依赖预选工具
- 区别/改进:克服了现有方法仅进行单次前期工具检索的局限性
- 意义:使代理能够处理更广泛的现实世界任务,适应任务的高度可变性
4. 统一的自主推理框架
- 创新点:在单一思维流中集成推理、工具发现、行动执行和内存管理
- 区别/改进:摆脱了传统固定执行模式的限制
- 意义:充分发挥大型推理模型的自主决策和深度推理能力
3️⃣ 主要结果与价值
结果亮点
- 在八个基准测试上的广泛实验表明,DeepAgent在标记工具和开放集工具检索场景中均优于基线方法
- DeepAgent-32B-RL在多个下游任务(ALFWorld、WebShop、GAIA、HLE)中取得最佳性能
- ToolPO训练方法显著提升模型性能,GAIA得分从46.7提升至53.3,ALFWorld成功率从88.1%提升至91.8%
- 与GRPO相比,ToolPO训练具有更高的奖励上限和验证分数,且训练过程更稳定
实际价值
- 突破了预定义工具集的限制,解锁了大推理模型在广泛复杂现实场景中的自主潜力
- 提供了高效、稳定的代理训练方案,解决了实际API交互中的不稳定、延迟和成本问题
- 增强了智能体的适应性和问题解决能力,在复杂任务完成中表现出色
- 为处理多步骤、多工具调用的复杂场景提供了有效的架构解决方案
4️⃣ 术语表
- DeepAgent:一种端到端的深度推理智能体,能够在单一连贯的推理过程中自主思考、工具发现和执行动作
- ToolPO:工具策略优化,一种为通用工具使用代理设计的强化学习方法,使用LLM模拟API和工具调用优势归因
- 记忆折叠:代理在推理过程中触发的操作,将原始交互历史压缩为结构化记忆(场景、工作、工具记忆),以刷新和简化视图
- ALFWorld:一个基于文本的具身AI任务环境,代理需使用九种基本动作(如移动、拾取)完成目标
- GAIA:一个复杂的信息寻求基准测试,为代理配备了网络搜索、页面浏览、视觉问答、代码编译和文件读取等工具