arXiv ID:
2601.12538
大语言模型的智能体推理 / Agentic Reasoning for Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种将大语言模型转变为能够自主规划、行动和学习的智能体的新范式,以解决其在开放动态环境中的推理难题,并系统梳理了从单智能体基础能力到多智能体协作的完整技术路线图。
大语言模型的智能体推理 / Agentic Reasoning for Large Language Models
这篇论文提出了一种将大语言模型转变为能够自主规划、行动和学习的智能体的新范式,以解决其在开放动态环境中的推理难题,并系统梳理了从单智能体基础能力到多智能体协作的完整技术路线图。
用于推理的协作式多智能体测试时强化学习 / Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning
这篇论文提出了一种名为MATTRL的新方法,它让多个AI专家在测试时通过讨论和分享经验来共同解决问题,从而显著提升了在医疗、数学等复杂任务上的推理准确率,且无需进行耗时的模型训练。
AI海马体:我们距离人类记忆还有多远? / The AI Hippocampus: How Far are We From Human Memory?
这篇综述论文系统地梳理了大型语言模型和多模态大模型中的记忆机制,将其分为内隐、外显和智能体记忆三大类,并探讨了这些机制如何提升模型的推理、适应和交互能力,以及当前面临的主要挑战。
为何大语言模型尚非科学家:来自四次自主研究尝试的启示 / Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts
这篇论文通过四次让大语言模型自主生成机器学习研究论文的尝试,发现其中三次失败,揭示了AI在自主科研中存在的六大常见缺陷,并提出了构建更可靠AI科学家系统的设计原则。
智能体系统的定量扩展原理 / Towards a Science of Scaling Agent Systems
本文提出了一个量化框架,揭示了智能体系统性能并非简单地随智能体数量增加而提升,而是由任务特性、协调机制与模型能力之间的复杂权衡所主导,并建立了基于任务可测量属性的架构选择预测模型。
Fed-SE:面向隐私受限多环境大语言模型智能体的联邦自进化框架 / Fed-SE: Federated Self-Evolution for Privacy-Constrained Multi-Environment LLM Agents
这篇论文提出了一个名为Fed-SE的新框架,它能让部署在不同环境中的大语言模型智能体在不共享原始数据、保护隐私的前提下,通过本地自我进化和全局知识聚合的方式协同学习,有效解决了传统联邦学习方法在动态、多样化任务中遇到的性能冲突问题,从而显著提升了智能体的任务成功率。
DeepCode:一个基于信息流管理的文档到代码库合成框架 / DeepCode: Open Agentic Coding
DeepCode是一个全新的、完全自主的智能编码框架,它将复杂的文档(如科学论文)到可执行代码库的合成过程,重新构想为一个信息流管理问题,通过协调多种信息操作(如蓝图蒸馏、结构化记忆、检索增强生成和闭环纠错),在有限的上文预算下最大化任务相关信号,从而在基准测试中超越了领先的商业代理和人类专家。
DoVer:面向大语言模型多智能体系统的干预驱动式自动调试方法 / DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems
这篇论文提出了一个名为DoVer的自动调试框架,它通过主动干预和验证来定位并修复大语言模型多智能体系统中的故障,显著提升了任务成功率,为复杂AI系统的可靠性调试提供了新思路。
SimWorld:一个面向物理与社交世界中自主智能体的开放式真实模拟器 / SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds
这篇论文介绍了一个名为SimWorld的新型高仿真模拟器,它基于虚幻引擎5构建,旨在为大型语言模型和视觉语言模型驱动的智能体提供一个开放、真实且可定制的物理与社交环境,以训练和评估它们在复杂现实任务(如多智能体协作与竞争)中的表现,并揭示了不同前沿模型的推理模式与局限。
多智能体系统中的潜在协作 / Latent Collaboration in Multi-Agent Systems
这篇论文提出了一个名为LatentMAS的无训练框架,让多个AI智能体直接在内部表示空间中进行协作,相比传统基于文本交互的方法,不仅显著提升了推理准确率和效率,还大幅降低了计算和通信开销。
请先 登录 后再提交论文