arXiv ID:
2509.10147
虚拟代理经济 / Virtual Agent Economies
1️⃣ 一句话总结
这篇论文提出了‘沙盒经济’框架来分析自主AI代理之间形成的新经济层,探讨了其自发涌现的特点、与人类经济的紧密联系,以及通过拍卖机制和使命经济设计来引导这一系统,以应对风险并促进人类集体繁荣。
虚拟代理经济 / Virtual Agent Economies
这篇论文提出了‘沙盒经济’框架来分析自主AI代理之间形成的新经济层,探讨了其自发涌现的特点、与人类经济的紧密联系,以及通过拍卖机制和使命经济设计来引导这一系统,以应对风险并促进人类集体繁荣。
OmniEVA:通过任务自适应三维基础与具身感知推理的通用具身规划器 / OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
这篇论文提出了一个名为OmniEVA的智能体规划系统,它通过动态选择三维信息融合和结合机器人物理限制进行推理,解决了现有模型在空间适应性和实际可行性方面的不足,从而在各种现实任务中实现了更通用和可靠的决策规划。
视觉可编程性:图表理解中代码即思维的指南 / Visual Programmability: A Guide for Code-as-Thought in Chart Understanding
该论文提出了一种自适应视觉语言模型框架,通过强化学习让模型学会动态选择代码推理或直接视觉分析来解决图表理解问题,从而提升推理的准确性和鲁棒性。
驾驭不确定性:面向长视野LLM智能体的熵调制策略梯度 / Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
本文提出了一种名为EMPG的新方法,通过根据智能体每一步的不确定性和最终任务结果调整学习信号,解决了大型语言模型在执行多步骤任务时因奖励稀疏和策略梯度与熵耦合导致的学习效率低下问题,从而显著提升了智能体在复杂任务中的表现。
MCP-AgentBench:利用MCP中介工具评估真实世界语言代理性能 / MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools
本研究提出了一个名为MCP-AgentBench的新基准测试,专门用于在真实场景下评估人工智能代理使用标准化工具的能力,旨在解决现有评估方法无法准确反映AI代理在实际应用中的表现差异的问题。
HANRAG:用于多跳问答的启发式精准抗噪声检索增强生成框架 / HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering
本文提出了一种名为HANRAG的新型智能框架,通过智能分解复杂问题并过滤无关信息,有效提升了多跳问答系统的准确性和抗干扰能力。
论文转智能体:将研究论文重新构想为交互式且可靠的AI智能体 / Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents
这篇论文提出了一个名为Paper2Agent的自动化框架,能够将静态的研究论文转化为可交互的AI智能体,使读者能够通过自然语言直接调用论文中的方法和工具进行复杂科学查询,从而降低理解和使用研究成果的门槛。
R²AI:在不断变化的世界中构建具有抵抗力和恢复力的人工智能 / \texttt{R$^\textbf{2}$AI}: Towards Resistant and Resilient AI in an Evolving World
这篇论文提出了一种名为R²AI的新框架,通过模拟生物免疫系统的动态对抗学习过程,将抵抗已知威胁和应对未知风险相结合,旨在为不断发展的AI系统提供可扩展且主动的安全保障。
深度研究系统的强化学习基础:一项综述 / Reinforcement Learning Foundations for Deep Research Systems: A Survey
这篇论文是第一篇专门探讨强化学习如何为能够自主执行复杂多步骤任务的深度研究系统提供核心训练方法的综述,强调了强化学习在减少人为偏见、优化长期决策和多目标权衡方面的独特优势。
WebExplorer:通过探索与演化训练长视野网络智能体 / WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents
本研究提出了一种通过模型探索和查询演化生成高质量训练数据的方法,成功训练出能进行多步骤复杂网络导航的8B参数智能体,在多项信息搜索任务中超越了更大规模的模型。
请先 登录 后再提交论文