arXiv ID:
2507.20534
Kimi K2:开放代理智能 / Kimi K2: Open Agentic Intelligence
1️⃣ 一句话总结
这篇论文介绍了名为Kimi K2的先进开源大语言模型,它通过创新的优化技术和多阶段训练方法,在软件工程和自主代理任务中表现出顶尖性能,无需复杂思考过程就能高效处理多种复杂任务。
Kimi K2:开放代理智能 / Kimi K2: Open Agentic Intelligence
这篇论文介绍了名为Kimi K2的先进开源大语言模型,它通过创新的优化技术和多阶段训练方法,在软件工程和自主代理任务中表现出顶尖性能,无需复杂思考过程就能高效处理多种复杂任务。
WebSailor:面向网络智能体的超人类推理导航 / WebSailor: Navigating Super-human Reasoning for Web Agent
这篇论文提出了一种名为WebSailor的完整训练方法,通过生成高不确定性任务和高效强化学习算法,使开源AI智能体在复杂信息搜索任务中达到与顶尖商业系统相当的超人水平。
DeepSeek-Prover-V2:一种用于形式定理证明的统一非形式与形式推理大语言模型 / DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition
本文提出了DeepSeek-Prover-V2,一个通过创新的子目标分解与强化学习冷启动训练方法,将非形式数学推理与形式化定理证明能力统一在单一模型中的开源大语言模型,在多个数学定理证明基准上达到了新的最先进性能。
DeepSeek-R1:通过强化学习激励大语言模型推理能力 / DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
这篇论文提出了两种通过强化学习训练的新型推理模型,其中DeepSeek-R1-Zero直接通过强化学习获得推理能力但存在可读性问题,而改进版DeepSeek-R1通过多阶段训练在推理任务上达到了与顶级模型相当的性能,并将相关模型开源供研究使用。
PaSa:基于大语言模型的全面学术论文搜索智能体 / PaSa: An LLM Agent for Comprehensive Academic Paper Search
这篇论文提出了一个名为PaSa的智能学术搜索助手,它能够自主决策、调用工具并阅读论文,通过强化学习和合成数据训练,在真实场景的学术查询中显著超越了谷歌、ChatGPT等现有搜索方法。
请先 登录 后再提交论文