arXiv ID:
2507.20534
Kimi K2:开放代理智能 / Kimi K2: Open Agentic Intelligence
1️⃣ 一句话总结
这篇论文介绍了名为Kimi K2的先进开源大语言模型,它通过创新的优化技术和多阶段训练方法,在软件工程和自主代理任务中表现出顶尖性能,无需复杂思考过程就能高效处理多种复杂任务。
Kimi K2:开放代理智能 / Kimi K2: Open Agentic Intelligence
这篇论文介绍了名为Kimi K2的先进开源大语言模型,它通过创新的优化技术和多阶段训练方法,在软件工程和自主代理任务中表现出顶尖性能,无需复杂思考过程就能高效处理多种复杂任务。
WebSailor:面向网络智能体的超人类推理导航 / WebSailor: Navigating Super-human Reasoning for Web Agent
这篇论文提出了一种名为WebSailor的完整训练方法,通过生成高不确定性任务和高效强化学习算法,使开源AI智能体在复杂信息搜索任务中达到与顶尖商业系统相当的超人水平。
DeepSeek-Prover-V2:一种用于形式定理证明的统一非形式与形式推理大语言模型 / DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition
本文提出了DeepSeek-Prover-V2,一个通过创新的子目标分解与强化学习冷启动训练方法,将非形式数学推理与形式化定理证明能力统一在单一模型中的开源大语言模型,在多个数学定理证明基准上达到了新的最先进性能。
DeepSeek-R1:通过强化学习激励大语言模型推理能力 / DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
这篇论文提出了两种通过强化学习训练的新型推理模型,其中DeepSeek-R1-Zero直接通过强化学习获得推理能力但存在可读性问题,而改进版DeepSeek-R1通过多阶段训练在推理任务上达到了与顶级模型相当的性能,并将相关模型开源供研究使用。
PaSa:基于大语言模型的全面学术论文搜索智能体 / PaSa: An LLM Agent for Comprehensive Academic Paper Search
这篇论文提出了一个名为PaSa的智能学术搜索助手,它能够自主决策、调用工具并阅读论文,通过强化学习和合成数据训练,在真实场景的学术查询中显著超越了谷歌、ChatGPT等现有搜索方法。
基于大语言模型的多智能体协作的规模化研究 / Scaling Large Language Model-based Multi-Agent Collaboration
这项研究发现,通过将大量AI智能体组织成网络进行协作,整体性能会随着智能体数量的增加而显著提升,且不规则网络结构比规则结构表现更好,揭示了智能体协作的规模化效应。
可执行代码行动能激发更优秀的LLM智能体 / Executable Code Actions Elicit Better LLM Agents
这篇论文提出了一种名为CodeAct的新方法,通过让大型语言模型智能体直接生成和执行Python代码来统一其行动方式,从而显著提升了处理复杂任务的成功率和灵活性,并基于此开发了开源的智能体模型。
ChatDev:用于软件开发的对话式智能体 / ChatDev: Communicative Agents for Software Development
这篇论文提出了一个名为ChatDev的框架,通过让多个基于大语言模型的智能体以自然语言和编程语言进行对话协作,统一完成软件的设计、编码和测试任务,从而解决了传统开发流程中各阶段技术不一致的问题。
请先 登录 后再提交论文