arXiv最新AI论文速览速学

🔍

标签: #embodied ai ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: Panoramic Affordance Prediction 03-17

arXiv ID: 2602.01640

arXiv 提交日期: 2026-02-02

agents model evaluation benchmark embodied ai automatic evaluation benchmark curation agentic framework cost reduction

A2Eval：具身智能体的代理化与自动化评估框架 / A2Eval: Agentic and Automated Evaluation for Embodied Brain

1️⃣ 一句话总结

这篇论文提出了一个名为A2Eval的自动化评估框架，它通过两个协作的智能代理来自动生成平衡的测试集和执行评估，从而大幅降低了传统具身智能模型评估的成本和时间，同时纠正了排名偏差，使评估结果更可靠、更高效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21841

arXiv 提交日期: 2026-01-29

llm agents systems embodied ai task planning graph neural networks action generation long-horizon planning

基于图结构信息引导与大型语言模型的具身任务规划 / Embodied Task Planning via Graph-Informed Action Generation with Large Lanaguage Model

1️⃣ 一句话总结

这篇论文提出了一种名为GiG的新框架，它通过图神经网络和记忆库来组织环境信息，帮助大型语言模型驱动的机器人或虚拟智能体在复杂环境中进行更连贯、更高效的长程任务规划，并在多个测试平台上取得了显著优于现有方法的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21751

arXiv 提交日期: 2026-01-29

robotics agents computer vision vision-language navigation topological planning dynamic graph adaptive sampling embodied ai

动态拓扑感知：打破视觉语言导航中的粒度僵化问题 / Dynamic Topology Awareness: Breaking the Granularity Rigidity in Vision-Language Navigation

1️⃣ 一句话总结

这篇论文提出了一种名为DGNav的动态导航框架，它通过根据环境复杂度自动调整地图的精细程度，解决了现有视觉语言导航方法中地图构建过于死板的问题，从而在保证安全的同时提高了导航效率和准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.15282

arXiv 提交日期: 2026-01-21

video generation robotics benchmark embodied ai dataset evaluation metrics physical realism synthetic data

为具身世界重新思考视频生成模型 / Rethinking Video Generation Model for the Embodied World

1️⃣ 一句话总结

这篇论文通过创建一个名为RBench的标准化机器人视频生成评测基准和一个包含400万标注视频片段的大型开源数据集RoVid-X，旨在解决现有模型难以生成物理真实机器人行为的问题，为具身人工智能的发展提供了评估和训练的基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14133

arXiv 提交日期: 2026-01-20

robotics multi-modal model training vision-language-action embodied ai catastrophic forgetting mixture-of-transformers robot manipulation

TwinBrainVLA：通过非对称混合变换器释放通用视觉语言模型在具身任务中的潜力 / TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

1️⃣ 一句话总结

这篇论文提出了一种名为TwinBrainVLA的新模型架构，它通过一个‘左脑’保持通用视觉理解能力，同时用一个可训练的‘右脑’专门学习机器人精细动作，从而解决了机器人控制任务中模型既要懂世界又要会动手的冲突，在保持高水平语义理解的同时实现了更精确的操控。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14352

arXiv 提交日期: 2026-01-20

robotics agents multi-modal embodied ai 3d spatial reasoning temporal modeling manipulation foundation model

RoboBrain 2.5：深度感知与时间建模 / RoboBrain 2.5: Depth in Sight, Time in Mind

1️⃣ 一句话总结

这篇论文提出了新一代机器人AI基础模型RoboBrain 2.5，它通过引入精确的三维空间推理和密集时间价值估计两大能力，让机器人能够更准确地在物理世界中理解和执行复杂的精细操作任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.09708

arXiv 提交日期: 2026-01-14

agents multi-modal model training vision-language-action latent planning chain-of-thought embodied ai efficient inference

Fast-ThinkAct：通过可语言化的潜在规划实现高效的视觉-语言-行动推理 / Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

1️⃣ 一句话总结

这篇论文提出了一种名为Fast-ThinkAct的新方法，它通过让AI模型学习一种高效的、内部的‘思考’方式，在保持机器人等智能体复杂任务规划能力的同时，大幅降低了决策所需的时间，从而让智能体反应更快、更实用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.03509

arXiv 提交日期: 2026-01-07

agents llm systems skill acquisition symbolic programs continual learning embodied ai compositional networks

演化式程序化技能网络 / Evolving Programmatic Skill Networks

1️⃣ 一句话总结

这篇论文提出了一种名为‘程序化技能网络’的新框架，让智能体能够像搭积木一样，通过可执行的符号程序来不断学习、优化和组合新技能，并在开放环境中展现出强大的适应和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01075

arXiv 提交日期: 2026-01-03

agents systems model training world models equivariant networks lie groups partial observability embodied ai

流等变世界模型：用于部分可观测动态环境的记忆 / Flow Equivariant World Models: Memory for Partially Observed Dynamic Environments

1️⃣ 一句话总结

这篇论文提出了一种名为‘流等变世界模型’的新框架，它将智能体自身运动和外部物体运动统一为数学上的‘流’，从而让AI模型能更高效、稳定地理解和预测部分可见的动态环境，尤其在长时预测和视野外动态推理上表现优异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16793

arXiv 提交日期: 2025-12-18

robotics multi-modal model training egocentric perception vision-language models embodied ai dataset creation physical intelligence

PhysBrain：以人类第一视角数据为桥梁，连接视觉语言模型与物理智能 / PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过大规模处理人类第一视角视频，将其转化为机器人能学习的结构化训练数据，从而有效提升了机器人对物理世界的理解和任务规划能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.01640

1️⃣ 一句话总结

arXiv ID: 2601.21841

1️⃣ 一句话总结

arXiv ID: 2601.21751

1️⃣ 一句话总结

arXiv ID: 2601.15282

1️⃣ 一句话总结

arXiv ID: 2601.14133

1️⃣ 一句话总结

arXiv ID: 2601.14352

1️⃣ 一句话总结

arXiv ID: 2601.09708

1️⃣ 一句话总结

arXiv ID: 2601.03509

1️⃣ 一句话总结

arXiv ID: 2601.01075

1️⃣ 一句话总结

arXiv ID: 2512.16793

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.01640 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21841 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21751 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.15282 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14133 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14352 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.09708 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.03509 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01075 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16793 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.01640

arXiv ID: 2601.21841

arXiv ID: 2601.21751

arXiv ID: 2601.15282

arXiv ID: 2601.14133

arXiv ID: 2601.14352

arXiv ID: 2601.09708

arXiv ID: 2601.03509

arXiv ID: 2601.01075

arXiv ID: 2512.16793