📄 论文总结
WebSailor:面向网络智能体的超人类推理导航 / WebSailor: Navigating Super-human Reasoning for Web Agent
1️⃣ 一句话总结
这篇论文提出了一种名为WebSailor的完整训练方法,通过生成高不确定性任务和高效强化学习算法,使开源AI智能体在复杂信息搜索任务中达到与顶尖商业系统相当的超人水平。
请先 登录 后再提交论文
WebSailor:面向网络智能体的超人类推理导航 / WebSailor: Navigating Super-human Reasoning for Web Agent
这篇论文提出了一种名为WebSailor的完整训练方法,通过生成高不确定性任务和高效强化学习算法,使开源AI智能体在复杂信息搜索任务中达到与顶尖商业系统相当的超人水平。
R&D-Agent-Quant:一种面向数据驱动因子与模型联合优化的多智能体框架 / R&D-Agent-Quant: A Multi-Agent Framework for Data-Centric Factors and Model Joint Optimization
这篇论文提出了一个名为RD-Agent(Q)的多智能体框架,通过自动化协调因子挖掘与模型优化,在减少70%因子数量的同时实现了比传统方法高两倍的金融市场年化收益,显著提升了量化策略的开发效率和稳健性。
可执行代码行动能激发更优秀的LLM智能体 / Executable Code Actions Elicit Better LLM Agents
这篇论文提出了一种名为CodeAct的新方法,通过让大型语言模型智能体直接生成和执行Python代码来统一其行动方式,从而显著提升了处理复杂任务的成功率和灵活性,并基于此开发了开源的智能体模型。
DeepSeek-R1:通过强化学习激励大语言模型推理能力 / DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
这篇论文提出了两种通过强化学习训练的新型推理模型,其中DeepSeek-R1-Zero直接通过强化学习获得推理能力但存在可读性问题,而改进版DeepSeek-R1通过多阶段训练在推理任务上达到了与顶级模型相当的性能,并将相关模型开源供研究使用。
基于大语言模型的多智能体协作的规模化研究 / Scaling Large Language Model-based Multi-Agent Collaboration
这项研究发现,通过将大量AI智能体组织成网络进行协作,整体性能会随着智能体数量的增加而显著提升,且不规则网络结构比规则结构表现更好,揭示了智能体协作的规模化效应。
ChatDev:用于软件开发的对话式智能体 / ChatDev: Communicative Agents for Software Development
这篇论文提出了一个名为ChatDev的框架,通过让多个基于大语言模型的智能体以自然语言和编程语言进行对话协作,统一完成软件的设计、编码和测试任务,从而解决了传统开发流程中各阶段技术不一致的问题。
PaSa:基于大语言模型的全面学术论文搜索智能体 / PaSa: An LLM Agent for Comprehensive Academic Paper Search
这篇论文提出了一个名为PaSa的智能学术搜索助手,它能够自主决策、调用工具并阅读论文,通过强化学习和合成数据训练,在真实场景的学术查询中显著超越了谷歌、ChatGPT等现有搜索方法。