← 返回列表

🤖 系统

📄 Abstract - DeepAgent: A General Reasoning Agent with Scalable Toolsets

⏳ 正在获取摘要...

顶级标签: agents llm

📄 论文总结

DeepAgent：具有可扩展工具集的通用推理智能体 / DeepAgent: A General Reasoning Agent with Scalable Toolsets

1️⃣ 一句话总结

DeepAgent是一个端到端的深度推理智能体，能够在单一连贯的推理过程中自主思考、动态发现工具并执行动作，通过自主记忆折叠机制和ToolPO强化学习策略解决了长视野交互中的上下文长度爆炸问题。

2️⃣ 论文创新点

1. 自主记忆折叠机制

创新点：受大脑启发的记忆架构，将过去的交互压缩为结构化的场景记忆、工作记忆和工具记忆
区别/改进：减少错误累积，同时保留关键信息，解决长交互历史管理问题
意义：显著提升系统效率，保持代理对任务的全局视角，防止陷入错误探索路径

2. ToolPO强化学习策略

创新点：为通用工具使用量身定制的端到端强化学习方法，利用LLM模拟API并通过工具调用优势归因分配细粒度信用
区别/改进：高效稳定地教授通用工具使用，提供更细粒度的学习信号
意义：解决了通用领域智能体强化训练中的不稳定、高成本和稀疏奖励问题

3. 动态工具发现机制

创新点：代理能够从任意规模的工具集中动态发现相关工具，而非依赖预选工具
区别/改进：克服了现有方法仅进行单次前期工具检索的局限性
意义：使代理能够处理更广泛的现实世界任务，适应任务的高度可变性

4. 统一的自主推理框架

创新点：在单一思维流中集成推理、工具发现、行动执行和内存管理
区别/改进：摆脱了传统固定执行模式的限制
意义：充分发挥大型推理模型的自主决策和深度推理能力

3️⃣ 主要结果与价值

结果亮点

在八个基准测试上的广泛实验表明，DeepAgent在标记工具和开放集工具检索场景中均优于基线方法
DeepAgent-32B-RL在多个下游任务（ALFWorld、WebShop、GAIA、HLE）中取得最佳性能
ToolPO训练方法显著提升模型性能，GAIA得分从46.7提升至53.3，ALFWorld成功率从88.1%提升至91.8%
与GRPO相比，ToolPO训练具有更高的奖励上限和验证分数，且训练过程更稳定

实际价值

突破了预定义工具集的限制，解锁了大推理模型在广泛复杂现实场景中的自主潜力
提供了高效、稳定的代理训练方案，解决了实际API交互中的不稳定、延迟和成本问题
增强了智能体的适应性和问题解决能力，在复杂任务完成中表现出色
为处理多步骤、多工具调用的复杂场景提供了有效的架构解决方案

4️⃣ 术语表

DeepAgent：一种端到端的深度推理智能体，能够在单一连贯的推理过程中自主思考、工具发现和执行动作
ToolPO：工具策略优化，一种为通用工具使用代理设计的强化学习方法，使用LLM模拟API和工具调用优势归因
记忆折叠：代理在推理过程中触发的操作，将原始交互历史压缩为结构化记忆（场景、工作、工具记忆），以刷新和简化视图
ALFWorld：一个基于文本的具身AI任务环境，代理需使用九种基本动作（如移动、拾取）完成目标
GAIA：一个复杂的信息寻求基准测试，为代理配备了网络搜索、页面浏览、视觉问答、代码编译和文件读取等工具

📄 打开原文 PDF