📄 论文总结
利用合成监督适应网络智能体 / Adapting Web Agents with Synthetic Supervision
1️⃣ 一句话总结
这篇论文提出了一个名为SynthAgent的框架,通过双重优化合成任务和行动轨迹来提升数据质量,从而帮助网络智能体更好地适应新网站环境,实验证明其效果优于现有方法。
请先 登录 后再提交论文
利用合成监督适应网络智能体 / Adapting Web Agents with Synthetic Supervision
这篇论文提出了一个名为SynthAgent的框架,通过双重优化合成任务和行动轨迹来提升数据质量,从而帮助网络智能体更好地适应新网站环境,实验证明其效果优于现有方法。
主动性熵平衡策略优化 / Agentic Entropy-Balanced Policy Optimization
这篇论文提出了一种名为AEPO的新强化学习算法,通过动态平衡探索过程中的不确定性,解决了现有方法因过度依赖熵信号导致的训练崩溃问题,在多个复杂任务上显著提升了智能体的工具使用能力。
基于渐进难度增强机制的Web智能体数据合成方法 / Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms
这篇论文提出了一种通过逐步增加任务难度来合成高质量训练数据的方法,使得训练出的网络智能体在复杂问答任务中表现更优,同时避免了重复工具使用行为。
BrowserAgent:基于人类浏览行为构建网页智能体 / BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions
这篇论文提出了一种模仿人类网页浏览行为的AI智能体BrowserAgent,它通过滚动、点击、输入等交互操作直接处理网页,在少量训练数据下实现了比依赖静态文本转换方法更优的问答性能,尤其在多跳推理任务上表现突出。
FocusAgent:一种简单而有效的网页智能体大上下文裁剪方法 / FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents
这篇论文提出了一种名为FocusAgent的智能方法,通过使用轻量级语言模型筛选网页关键信息,在保持任务成功率的同时,将处理内容减少一半以上,并显著降低了安全风险。
ReSum:通过上下文摘要解锁长范围搜索智能 / ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
这篇论文提出了一种名为ReSum的新方法,通过定期总结上下文来突破大型语言模型在处理复杂网络搜索任务时的记忆限制,从而显著提升了搜索智能体的性能和探索能力。
WebExplorer:通过探索与演化训练长视野网络智能体 / WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents
本研究提出了一种通过模型探索和查询演化生成高质量训练数据的方法,成功训练出能进行多步骤复杂网络导航的8B参数智能体,在多项信息搜索任务中超越了更大规模的模型。