arXiv最新AI论文速览速学

📄

2511.06101

🤖 系统

11-30 17:51

agents model training data

web agents synthetic data data refinement fine-tuning adaptation

📄 论文总结

利用合成监督适应网络智能体 / Adapting Web Agents with Synthetic Supervision

1️⃣ 一句话总结

这篇论文提出了一个名为SynthAgent的框架，通过双重优化合成任务和行动轨迹来提升数据质量，从而帮助网络智能体更好地适应新网站环境，实验证明其效果优于现有方法。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.14545

🤖 系统

11-30 17:42

agents reinforcement learning model training

policy optimization entropy balancing tool-use agents web agents rollout sampling

📄 论文总结

主动性熵平衡策略优化 / Agentic Entropy-Balanced Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为AEPO的新强化学习算法，通过动态平衡探索过程中的不确定性，解决了现有方法因过度依赖熵信号导致的训练崩溃问题，在多个复杂任务上显著提升了智能体的工具使用能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.13913

🤖 系统

11-30 17:41

agents data model training

web agents data synthesis difficulty progression instruction tuning tool usage

📄 论文总结

基于渐进难度增强机制的Web智能体数据合成方法 / Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms

1️⃣ 一句话总结

这篇论文提出了一种通过逐步增加任务难度来合成高质量训练数据的方法，使得训练出的网络智能体在复杂问答任务中表现更优，同时避免了重复工具使用行为。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.10666

🤖 系统

11-30 17:40

llm agents systems

web agents browser automation interactive agents rejection fine-tuning memory mechanisms

📄 论文总结

BrowserAgent：基于人类浏览行为构建网页智能体 / BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions

1️⃣ 一句话总结

这篇论文提出了一种模仿人类网页浏览行为的AI智能体BrowserAgent，它通过滚动、点击、输入等交互操作直接处理网页，在少量训练数据下实现了比依赖静态文本转换方法更优的问答性能，尤其在多跳推理任务上表现突出。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.03204

🤖 系统

11-30 17:36

llm agents systems

web agents context pruning accessibility tree prompt injection efficiency

📄 论文总结

FocusAgent：一种简单而有效的网页智能体大上下文裁剪方法 / FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents

1️⃣ 一句话总结

这篇论文提出了一种名为FocusAgent的智能方法，通过使用轻量级语言模型筛选网页关键信息，在保持任务成功率的同时，将处理内容减少一半以上，并显著降低了安全风险。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.13313

🤖 系统

11-30 17:33

llm agents systems

context summarization web agents long-horizon search reinforcement learning benchmark evaluation

📄 论文总结

ReSum：通过上下文摘要解锁长范围搜索智能 / ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

1️⃣ 一句话总结

这篇论文提出了一种名为ReSum的新方法，通过定期总结上下文来突破大型语言模型在处理复杂网络搜索任务时的记忆限制，从而显著提升了搜索智能体的性能和探索能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.06501

🤖 系统

11-30 17:30

llm agents model training

web agents data generation reinforcement learning long-horizon tasks tool usage

📄 论文总结

WebExplorer：通过探索与演化训练长视野网络智能体 / WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

1️⃣ 一句话总结

本研究提出了一种通过模型探索和查询演化生成高质量训练数据的方法，成功训练出能进行多步骤复杂网络导航的8B参数智能体，在多项信息搜索任务中超越了更大规模的模型。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2511.06101

📄 论文总结

1️⃣ 一句话总结

2510.14545

📄 论文总结

1️⃣ 一句话总结

2510.13913

📄 论文总结

1️⃣ 一句话总结

2510.10666

📄 论文总结

1️⃣ 一句话总结

2510.03204

📄 论文总结

1️⃣ 一句话总结

2509.13313

📄 论文总结

1️⃣ 一句话总结

2509.06501

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2511.06101 📝

📄 论文总结

1️⃣ 一句话总结

2510.14545 📝

📄 论文总结

1️⃣ 一句话总结

2510.13913 📝

📄 论文总结

1️⃣ 一句话总结

2510.10666 📝

📄 论文总结

1️⃣ 一句话总结

2510.03204 📝

📄 论文总结

1️⃣ 一句话总结

2509.13313 📝

📄 论文总结

1️⃣ 一句话总结

2509.06501 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2511.06101

2510.14545

2510.13913

2510.10666

2510.03204

2509.13313

2509.06501