🤖 系统
09-09 20:55
📄 论文总结
WebExplorer:一种用于训练长视野网络代理的系统化数据生成方法
WebExplorer: A Systematic Data Generation Method for Training Long-Horizon Web Agents
1️⃣ 一句话总结
WebExplorer是一种通过模型驱动的探索和迭代查询演化方法,自动生成高质量、挑战性问答对,并训练出支持长上下文和复杂网络导航的先进Web代理模型。
2️⃣ 论文创新点
1. 模型驱动的探索方法
- 创新点是什么:利用大型语言模型通过迭代搜索和浏览动作自主构建信息空间,替代传统的基于规则的图构建方法。
- 与已有方法的区别/改进:避免了传统方法中节点扩展和选择启发式的复杂性,无需复杂的图扩展策略和显式图维护。
- 为什么有意义:实现了信息空间的灵活、动态探索,为构建初始问答对奠定了基础,简化了挑战性QA对的生成过程。
2. 迭代查询演化(长到短)
- 创新点是什么:通过策略性地移除显著信息和引入混合策略来自然模糊查询,而不是传统的信息注入或短到长演化方法。
- 与已有方法的区别/改进:避免了传统演化方法可能导致的不自然复杂性,专注于信息减少而非扩展。
- 为什么有意义:生成的问答对更接近真实信息寻求基准的挑战性,提升了模型测试的有效性,创造了更符合实际难度的挑战性查询。
3. WebExplorer-8B模型架构
- 创新点是什么:基于Qwen3-8B模型,通过监督微调和强化学习训练,支持128K上下文长度和100个工具调用轮次的长视野网络代理模型。
- 与已有方法的区别/改进:相比现有开源模型在复杂任务上表现更好,展现了卓越的参数效率。
- 为什么有意义:为长视野问题解决提供了实用的技术路径,在8B参数规模下实现了最先进的性能。
4. 两阶段训练范式
- 创新点是什么:采用监督微调(SFT)进行冷启动,培养搜索和浏览功能及长视野推理基础;随后使用强化学习(RL)和GRPO算法进一步优化决策和推理能力。
- 与已有方法的区别/改进:SFT使用正确轨迹培养基础能力,RL利用合成QA对自主探索推理路径。
- 为什么有意义:有效结合有监督和强化学习,优化模型推理和决策性能。
5. 复合奖励函数
- 创新点是什么:RL阶段使用格式奖励和准确性奖励的复合函数(R = 0.2 * R_format + R_correct),通过DeepSeek-V3自动评估答案正确性。
- 与已有方法的区别/改进:格式奖励确保响应结构正确,准确性奖励通过大模型自动评估答案正确性。
- 为什么有意义:平衡结构合规性与答案准确性,实现可扩展且可靠的模型评估。
3️⃣ 主要结果与价值
实验结果亮点
- WebExplorer-8B在多个信息寻求基准测试中达到同规模下的最先进性能,甚至在HLE基准测试中表现出强泛化能力
- 在BrowseComp-en、BrowseComp-zh、FRAMES和WebWalkerQA等基准上均取得了开源sub-100B模型中的最佳性能
- 训练过程中每个轨迹的平均工具调用次数从约11次稳步增加至超16次,平均响应长度同步增长至超40K token
实际应用价值
- 提供了一种系统化的高质量训练数据生成方法,解决了人工标注成本高、数据集规模小的问题
- 开发的WebExplorer-8B模型为实际网络导航任务提供了高效的解决方案
- 渐进式上下文长度扩展策略允许模型在整个训练过程中发展更复杂的长程推理模式
4️⃣ 术语表
- WebExplorer:一种使用模型驱动探索和查询演化方法训练长视野网络代理的系统
- BrowseComp-en/zh:具有挑战性的搜索基准测试,包含极其困难的查询任务,采用模糊描述而非明确线索
- GRPO算法:用于强化学习训练的算法
- ReAct范式:一种智能体执行框架,代理执行推理和行动的迭代循环(Thought-Action-Observation序列)
- WebExplorer-QA:通过迭代查询演化方法构建的复杂QA数据集,用于训练长视野Web导航代理
- Avg@4:一种评估指标,使用四次运行的平均分数来衡量模型性能
- LLM-as-Judge:使用大型语言模型作为评判者来评估模型输出的方法
- WebExplorer-8B:基于Qwen3-8B模型通过SFT和RL训练得到的网络代理模型,在多个信息寻求基准测试中表现出色