arXiv ID:
2512.16301
智能体人工智能系统适应性的系统化框架 / Adaptation of Agentic AI
1️⃣ 一句话总结
本文提出了一个系统化的框架,将智能体AI系统的适应性研究统一为智能体适应和工具适应两个维度及其四种具体范式,旨在阐明设计空间、权衡取舍,并为构建更强大、高效、可靠的智能体系统提供概念基础和实践路线图。
智能体人工智能系统适应性的系统化框架 / Adaptation of Agentic AI
本文提出了一个系统化的框架,将智能体AI系统的适应性研究统一为智能体适应和工具适应两个维度及其四种具体范式,旨在阐明设计空间、权衡取舍,并为构建更强大、高效、可靠的智能体系统提供概念基础和实践路线图。
SAGE:一种基于强化学习的技能库智能体自我进化框架 / Reinforcement Learning for Self-Improving Agent with Skill Library
本文提出了一种名为SAGE的新型强化学习框架,通过顺序部署和技能集成奖励机制,使基于大语言模型的智能体能够在新环境中持续学习、积累和复用技能,从而实现自我改进和高效适应。
长视频全模态推理与工具使用的基准与智能体框架 / A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
这篇论文提出了一个名为LongShOTBench的诊断性基准测试和一个名为LongShOTAgent的智能体系统,用于全面评估和提升AI模型在理解长视频时整合视觉、语音、音频并进行复杂推理与工具使用的能力,揭示了当前先进模型在此任务上的显著不足。
元强化学习引导语言智能体进行探索 / Meta-RL Induces Exploration in Language Agents
这篇论文提出了一个名为LaMer的元强化学习框架,它能让大型语言模型智能体在执行任务时更主动地探索环境并从反馈中学习,从而在多种复杂任务上取得比传统强化学习方法更好的性能和更强的适应能力。
Turn-PPO:基于回合级优势估计与PPO的改进多轮强化学习,用于提升智能大语言模型 / Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs
这篇论文提出了一种名为Turn-PPO的新强化学习方法,通过将优化过程从传统的“词级”提升到“回合级”,有效解决了智能大语言模型在需要多轮交互和长远规划任务中训练不稳定的问题,从而提升了模型的整体表现。
VenusBench-GD:一个面向多样化界面定位任务的多平台综合性图形用户界面基准 / VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks
这篇论文提出了一个名为VenusBench-GD的新型多平台图形用户界面基准测试,它通过大规模、高质量的数据和分层任务设计,全面评估AI模型在理解和定位屏幕元素方面的能力,发现通用模型在基础任务上已媲美专用模型,但高级任务仍具挑战性。
MomaGraph:用于具身任务规划的、具备状态感知能力的统一场景图与视觉语言模型 / MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
这篇论文提出了一个名为MomaGraph的统一场景表示方法,它结合了空间、功能和物体状态信息,并配套发布了首个大规模任务驱动场景图数据集与评估基准,同时训练了一个能根据场景图进行零样本任务规划的视觉语言模型,显著提升了家庭环境中移动机械臂的任务规划性能。
自动驾驶中的视觉-语言-动作模型:过去、现在与未来 / Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future
这篇论文系统梳理了自动驾驶技术从传统模块化框架到新型视觉-语言-动作(VLA)模型的发展历程,指出VLA模型通过整合视觉感知、语言推理和动作生成,为实现更可解释、更通用且更符合人类意图的自动驾驶系统提供了新方向。
迈向无缝交互:交互式3D对话头部动态的因果轮次建模 / Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics
这篇论文提出了一个名为TIMAR的新方法,它能够像真人对话一样,实时、连贯地生成虚拟人物或机器人的头部动作和表情,让交互看起来更自然。
FrontierCS:为不断进化的智能体设计不断演进的挑战 / FrontierCS: Evolving Challenges for Evolving Intelligence
这篇论文提出了一个名为FrontierCS的新型计算机科学基准测试,它包含156个开放式问题,这些问题没有已知的最优解但可以客观评估方案质量,旨在衡量AI模型在解决前沿复杂问题(如算法设计和系统研究)上的真实能力,并发现当前最先进的模型仍远落后于人类专家。
请先 登录 后再提交论文