📄 论文总结
Recon-Act:基于侦察-行动行为模式的自演进多智能体浏览器使用框架
Recon-Act: A Self-Evolving Multi-Agent Browser Usage Framework Based on Reconnaissance-Action Behavior Pattern
1️⃣ 一句话总结
本文提出了一种基于侦察-行动行为模式的自演进多智能体浏览器使用框架,通过在真实网页多轮长轨迹任务中对比错误与成功轨迹生成补救措施并抽象为通用工具,显著提升了智能体在陌生网页环境中的任务执行效率和适应性。
2️⃣ 论文创新点
1. 侦察-行动行为模式
- 创新点是什么:采用双智能体团队协作框架,侦察团队负责信息探索、问题分析和工具生成,行动团队负责工具管理和任务执行
- 与已有方法的区别/改进:通过对比错误与成功轨迹推断补救措施,抽象为通用工具,减少试错
- 为什么有意义:建立了闭环训练管道,提高对未见网站的适应性和长视野任务的可解性
2. 通用工具抽象机制
- 创新点是什么:将补救措施抽象为统一的通用工具概念,可以表示为提示或基于规则的代码,并实时注册到工具档案库
- 与已有方法的区别/改进:行动团队在推理过程中使用这些针对性工具,提高决策效率
- 为什么有意义:实现了系统的自演进能力,显著提升任务执行效率
3. 闭环进化系统
- 创新点是什么:通过评估轨迹、分析失败原因、创建/更新工具、注册部署形成迭代改进循环
- 与已有方法的区别/改进:实现了工具集的在线增强,建立反馈循环
- 为什么有意义:使系统能够持续自我改进,从无法解决的问题中学习
4. 双模式工具注册
- 创新点是什么:工具可以注册为Hint模式和Decision模式,Hint模式提供侦察信号辅助决策,Decision模式直接产生确定性动作
- 与已有方法的区别/改进:区分了不同确定性程度的工具,提高了系统的灵活性和决策效率
- 为什么有意义:实现了工具使用的精细化控制,平衡了探索与利用
3️⃣ 主要结果与价值
实验结果亮点
- 在VisualWebArena数据集上取得36.48%的整体成功率,达到新的SOTA性能
- 在Shopping子领域达到39.27%的成功率,超越现有最佳方法
- 系统当前达到Level 3实施水平(保留分析员和工具管理器的人机协作)
实际应用价值
- 能够在陌生网页环境中自主获取线索、调用工具并完成复杂多轮任务
- 显著减少浏览器交互任务中的试错次数,提高任务执行稳定性
- 为智能体在信息密集的浏览器环境中的自我进化提供了实用路径
4️⃣ 术语表
- Recon-Act:基于侦察-行动行为模式的自演进多智能体浏览器使用系统,采用侦察-行动双团队协作架构
- VisualWebArena:用于评估能够理解和基于网络视觉内容行动的智能体的基准数据集,包含约910个查询,覆盖分类广告、购物和Reddit论坛三个领域
- 侦察团队:训练阶段负责分析问题、更新工具集的多智能体系统,包括分析员和编码器
- 行动团队:推理阶段执行任务的智能体系统,包括主控、工具管理器和执行代理
- 广义工具:在Recon-Act系统中,指封装为提示或专用工具的工具,包括基于规则的工具和工具智能体
- 工具管理器:行动团队中的智能体,负责决定是否添加新工具或更新现有工具,并进行工具合并