arXiv ID:
2601.12538
大语言模型的智能体推理 / Agentic Reasoning for Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种将大语言模型转变为能够自主规划、行动和学习的智能体的新范式,以解决其在开放动态环境中的推理难题,并系统梳理了从单智能体基础能力到多智能体协作的完整技术路线图。
大语言模型的智能体推理 / Agentic Reasoning for Large Language Models
这篇论文提出了一种将大语言模型转变为能够自主规划、行动和学习的智能体的新范式,以解决其在开放动态环境中的推理难题,并系统梳理了从单智能体基础能力到多智能体协作的完整技术路线图。
MMDeepResearch-Bench:面向多模态深度研究智能体的基准测试 / MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
这篇论文提出了一个名为MMDeepResearch-Bench的新基准测试,专门用于评估多模态深度研究智能体如何利用图像和文本证据来生成带引用的长篇研究报告,并开发了一套可解释的评估方法来诊断模型在报告质量、引用忠实度和图文一致性方面的系统性问题。
ToolPRMBench:评估并推进工具使用智能体的过程奖励模型 / ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents
这篇论文提出了一个名为ToolPRMBench的大规模基准测试,专门用来评估和比较那些指导AI智能体分步骤使用工具的过程奖励模型,发现专门为工具使用设计的模型表现更好。
终端基准测试:在命令行界面中对智能体进行困难、真实任务的基准评估 / Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces
这篇论文提出了一个名为Terminal-Bench 2.0的困难基准测试,它包含89个源自真实工作流程的命令行任务,用于评估AI智能体在复杂、现实场景中的能力,结果显示当前前沿模型的得分低于65%,并指出了改进方向。
Agentic-R:学习为智能体搜索进行检索 / Agentic-R: Learning to Retrieve for Agentic Search
这篇论文提出了一种专门为多步骤智能体搜索设计的新型检索器训练框架,它通过结合局部查询相关性和全局答案正确性来优化检索,并采用智能体与检索器双向迭代训练的方法,显著提升了复杂问答任务的性能。
仅有知识还不够:注入强化学习技能以实现持续适应 / Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation
这篇论文提出了一种名为PaST的新方法,它能够将大语言模型从强化学习中获得的‘知识运用技能’模块化地提取出来,然后像‘打补丁’一样快速注入到经过简单微调的模型中,从而让模型不仅能记住新知识,还能更有效地利用这些知识来回答问题或完成任务。
ABC-Bench:现实世界开发中智能体后端编码的基准测试 / ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development
这篇论文提出了一个名为ABC-Bench的新基准测试,专门用于评估AI智能体在真实后端开发全流程(从代码探索到服务部署)中的综合编码能力,发现当前最先进的模型在这类实际工程任务上仍表现不佳。
ACoT-VLA:面向视觉-语言-动作模型的动作思维链 / ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models
这篇论文提出了一种名为ACoT-VLA的新方法,它让机器人通过在动作空间中直接进行结构化思考(即生成一系列粗略的动作意图)来指导最终决策,从而比传统方法更精确地完成复杂的操作任务。
毒苹果效应:AI智能体通过技术扩张对中介市场进行战略性操纵 / The Poisoned Apple Effect: Strategic Manipulation of Mediated Markets via Technology Expansion of AI Agents
这篇论文发现,当AI智能体进入经济市场并引入更多技术选择时,会引发一种名为‘毒苹果效应’的策略性现象,即一方可能故意发布自己最终都不会使用的新技术,仅仅是为了操纵监管规则向己方倾斜,从而损害对手和市场的公平性,这表明静态的监管框架容易受到操纵,需要能适应AI能力演变的动态市场设计。
AgencyBench:在百万令牌真实世界场景中评测自主智能体的前沿能力 / AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts
这篇论文提出了一个名为AgencyBench的新基准测试,它通过模拟真实、复杂且耗时的任务,自动评估不同AI智能体的综合能力,发现闭源模型整体表现优于开源模型,并揭示了智能体性能与其运行框架紧密相关。
请先 登录 后再提交论文