← 返回列表

菜单

🤖 系统
📄 Abstract - WebExplorer: A Systematic Data Generation Method for Training Long-Horizon Web Agents
正在获取摘要...
顶级标签: agents llm
详细标签: web agents long-horizon navigation data generation reinforcement learning benchmark evaluation 或 搜索:

📄 论文总结

WebExplorer:一种用于训练长视野网络代理的系统化数据生成方法

WebExplorer: A Systematic Data Generation Method for Training Long-Horizon Web Agents


1️⃣ 一句话总结

WebExplorer是一种通过模型驱动的探索和迭代查询演化方法,自动生成高质量、挑战性问答对,并训练出支持长上下文和复杂网络导航的先进Web代理模型。


2️⃣ 论文创新点

1. 模型驱动的探索方法

2. 迭代查询演化(长到短)

3. WebExplorer-8B模型架构

4. 两阶段训练范式

5. 复合奖励函数


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF