🤖 系统
10-20 11:23
📄 论文总结
ProgSearch:渐进式搜索数据合成方法用于训练网络智能体 / ProgSearch: Progressive Search Data Synthesis for Training Web Agents
1️⃣ 一句话总结
本文提出了一种名为ProgSearch的双管齐下数据合成流程,通过渐进式增加任务复杂度生成问答对,利用基线网络智能体扮演多重角色来验证和过滤数据,显著提升了网络智能体在复杂基准测试中的性能。
2️⃣ 论文创新点
1. 渐进式难度增强数据合成
- 创新点:提出双管齐下数据合成流程,通过渐进式增加任务复杂度生成问答对,直到基线网络智能体无法解答为止
- 区别/改进:解决了现有方法缺乏细粒度难度控制的问题,能生成更具挑战性的数据
- 意义:使训练出的网络智能体在多种基准测试中表现更优,工具使用多样性提升两倍
2. 基线智能体多角色集成
- 创新点:在数据合成过程中集成基线网络智能体,承担问题尝试、事实验证、答案检查和过滤执行等多重角色
- 区别/改进:解决了现有方法缺乏强智能体参与合成过程的问题
- 意义:确保生成数据的质量和难度能有效挑战已有能力的智能体
3. 双管齐下合成策略
- 创新点:结合自上而下和自下而上两种方法:自上而下基于事实树结构逐步增加问题难度;自下而上针对罕见实体生成复杂问题
- 区别/改进:提供了灵活的数据生成框架,适应不同复杂度需求
- 意义:增强数据多样性和难度,促进模型在多轮交互中的表现
4. 事实树知识结构
- 创新点:构建分层知识结构,基于此迭代合成复杂度递增的问题,通过逐步拼接知识片段系统性增加问题难度
- 区别/改进:通过逐步拼接知识片段来系统性增加问题难度
- 意义:实现问题难度的可控增长,更好地对齐代理能力
3️⃣ 主要结果与价值
结果亮点
- 在FRAMES和GAIA基准测试中表现突出,显著提升模型性能
- 生成的轨迹平均包含20.43次工具调用,是基线方法的2-4倍
- 工具调用次数仅比基线略多但准确率提升达10%,实现更有效的工具使用而非简单增加调用频率
- 在防止数据污染的条件下,在多个基准测试中显著提升模型性能
实际价值
- 产生包含复杂轨迹的高质量训练数据,平均20个工具调用
- 训练出的智能体能处理复杂的长视野任务,支持更深入的工具使用和推理
- 数据在主题覆盖上更广泛多样,有助于提升网络代理的下游性能
- 证明了精心设计和控制复杂性比单纯扩大规模更能有效提升网络代理性能
4️⃣ 术语表
- ProgSearch:本文提出的双管齐下合成数据生成流程,包含自上而下和自下而上两种方法,用于训练基于网络的深度研究智能体
- web agents:基于网络的深度研究智能体,通过长视野交互解决复杂问答任务
- tree-of-facts:分层知识结构,用于自上而下合成复杂度递增的问题,每个节点编码连接实体的关系事实
- 基线网络代理G:配备搜索、浏览和Python工具的多轮推理LLM,用于知识获取和问题难度评估
- 罕见实体锚点:作为问题答案的罕见、现实、多样、短形式和具体的实体,通过流行度信号选择
- 拒绝采样:一种采样技术,用于生成蒸馏轨迹,仅保留与真实答案一致的轨迹作为训练数据
- FRAMES:评估网络代理性能的数据集之一,ProgSearch在此获得最大性能提升
- GAIA:通用AI助手的基准测试,用于评估网络代理性能