arXiv最新AI论文速览速学

🔍

agents ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 38 72小时内新更新论文 72h更新 127 最新: Dynamic UGV-UAV Cooperative Path Planning in Uncertain Environments 05-03

arXiv ID: 2512.16301

arXiv 提交日期: 2025-12-18

agents systems model training agent adaptation tool adaptation adaptive systems framework ai agents

智能体人工智能系统适应性的系统化框架 / Adaptation of Agentic AI

1️⃣ 一句话总结

本文提出了一个系统化的框架，将智能体AI系统的适应性研究统一为智能体适应和工具适应两个维度及其四种具体范式，旨在阐明设计空间、权衡取舍，并为构建更强大、高效、可靠的智能体系统提供概念基础和实践路线图。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.17102

arXiv 提交日期: 2025-12-18

reinforcement learning agents llm skill library self-improving agent policy optimization sequential deployment reward shaping

SAGE：一种基于强化学习的技能库智能体自我进化框架 / Reinforcement Learning for Self-Improving Agent with Skill Library

1️⃣ 一句话总结

本文提出了一种名为SAGE的新型强化学习框架，通过顺序部署和技能集成奖励机制，使基于大语言模型的智能体能够在新环境中持续学习、积累和复用技能，从而实现自我改进和高效适应。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16978

arXiv 提交日期: 2025-12-18

benchmark multi-modal agents video understanding multimodal reasoning agentic tool use evaluation framework long-form video

长视频全模态推理与工具使用的基准与智能体框架 / A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos

1️⃣ 一句话总结

这篇论文提出了一个名为LongShOTBench的诊断性基准测试和一个名为LongShOTAgent的智能体系统，用于全面评估和提升AI模型在理解长视频时整合视觉、语音、音频并进行复杂推理与工具使用的能力，揭示了当前先进模型在此任务上的显著不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16848

arXiv 提交日期: 2025-12-18

llm agents reinforcement learning meta-reinforcement learning exploration language agents in-context adaptation policy learning

元强化学习引导语言智能体进行探索 / Meta-RL Induces Exploration in Language Agents

1️⃣ 一句话总结

这篇论文提出了一个名为LaMer的元强化学习框架，它能让大型语言模型智能体在执行任务时更主动地探索环境并从反馈中学习，从而在多种复杂任务上取得比传统强化学习方法更好的性能和更强的适应能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.17008

arXiv 提交日期: 2025-12-18

llm agents reinforcement learning policy optimization multi-turn reasoning advantage estimation ppo interactive agents

Turn-PPO：基于回合级优势估计与PPO的改进多轮强化学习，用于提升智能大语言模型 / Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

1️⃣ 一句话总结

这篇论文提出了一种名为Turn-PPO的新强化学习方法，通过将优化过程从传统的“词级”提升到“回合级”，有效解决了智能大语言模型在需要多轮交互和长远规划任务中训练不稳定的问题，从而提升了模型的整体表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16501

arXiv 提交日期: 2025-12-18

benchmark agents multi-modal gui grounding evaluation framework multimodal models hierarchical tasks cross-platform

VenusBench-GD：一个面向多样化界面定位任务的多平台综合性图形用户界面基准 / VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

1️⃣ 一句话总结

这篇论文提出了一个名为VenusBench-GD的新型多平台图形用户界面基准测试，它通过大规模、高质量的数据和分层任务设计，全面评估AI模型在理解和定位屏幕元素方面的能力，发现通用模型在基础任务上已媲美专用模型，但高级任务仍具挑战性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16909

arXiv 提交日期: 2025-12-18

multi-modal agents robotics scene graph embodied ai task planning vision-language model reinforcement learning

MomaGraph：用于具身任务规划的、具备状态感知能力的统一场景图与视觉语言模型 / MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

1️⃣ 一句话总结

这篇论文提出了一个名为MomaGraph的统一场景表示方法，它结合了空间、功能和物体状态信息，并配套发布了首个大规模任务驱动场景图数据集与评估基准，同时训练了一个能根据场景图进行零样本任务规划的视觉语言模型，显著提升了家庭环境中移动机械臂的任务规划性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16760

arXiv 提交日期: 2025-12-18

multi-modal agents systems autonomous driving vision-language-action decision making planning benchmark

自动驾驶中的视觉-语言-动作模型：过去、现在与未来 / Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future

1️⃣ 一句话总结

这篇论文系统梳理了自动驾驶技术从传统模块化框架到新型视觉-语言-动作（VLA）模型的发展历程，指出VLA模型通过整合视觉感知、语言推理和动作生成，为实现更可解释、更通用且更符合人类意图的自动驾驶系统提供了新方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.15340

arXiv 提交日期: 2025-12-17

multi-modal agents systems conversational agents 3d head generation causal modeling multimodal fusion avatar animation

迈向无缝交互：交互式3D对话头部动态的因果轮次建模 / Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

1️⃣ 一句话总结

这篇论文提出了一个名为TIMAR的新方法，它能够像真人对话一样，实时、连贯地生成虚拟人物或机器人的头部动作和表情，让交互看起来更自然。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.15699

arXiv 提交日期: 2025-12-17

benchmark model evaluation agents code generation algorithmic reasoning open-ended problems automatic evaluation expert-level performance

FrontierCS：为不断进化的智能体设计不断演进的挑战 / FrontierCS: Evolving Challenges for Evolving Intelligence

1️⃣ 一句话总结

这篇论文提出了一个名为FrontierCS的新型计算机科学基准测试，它包含156个开放式问题，这些问题没有已知的最优解但可以客观评估方案质量，旨在衡量AI模型在解决前沿复杂问题（如算法设计和系统研究）上的真实能力，并发现当前最先进的模型仍远落后于人类专家。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.16301

1️⃣ 一句话总结

arXiv ID: 2512.17102

1️⃣ 一句话总结

arXiv ID: 2512.16978

1️⃣ 一句话总结

arXiv ID: 2512.16848

1️⃣ 一句话总结

arXiv ID: 2512.17008

1️⃣ 一句话总结

arXiv ID: 2512.16501

1️⃣ 一句话总结

arXiv ID: 2512.16909

1️⃣ 一句话总结

arXiv ID: 2512.16760

1️⃣ 一句话总结

arXiv ID: 2512.15340

1️⃣ 一句话总结

arXiv ID: 2512.15699

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.16301 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.17102 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16978 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16848 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.17008 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16501 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16909 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16760 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.15340 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.15699 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.16301

arXiv ID: 2512.17102

arXiv ID: 2512.16978

arXiv ID: 2512.16848

arXiv ID: 2512.17008

arXiv ID: 2512.16501

arXiv ID: 2512.16909

arXiv ID: 2512.16760

arXiv ID: 2512.15340

arXiv ID: 2512.15699