arXiv最新AI论文速览速学

🔍

标签: #embodied ai ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: World2Minecraft: Occupancy-Driven Simulated Scenes Construction 05-01

arXiv ID: 2604.27578

arXiv 提交日期: 2026-04-30

computer vision agents data embodied ai 3d occupancy prediction scene reconstruction simulation environment dataset generation

世界到我的世界：基于占据预测的模拟场景构建 / World2Minecraft: Occupancy-Driven Simulated Scenes Construction

1️⃣ 一句话总结

本文提出了一种名为World2Minecraft的方法，能够将真实世界的场景自动转换为《我的世界》中的结构化三维环境，从而为具身智能研究（如视觉语言导航）提供一个低成本、可定制且易于编辑的高保真模拟平台，并为此构建了一个大规模三维占据预测数据集MinecraftOcc来提升场景重建的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24039

arXiv 提交日期: 2026-04-27

agents llm systems embodied ai planning cache efficiency multi-agent

AgenticCache：面向具身AI智能体的缓存驱动异步规划框架 / AgenticCache: Cache-Driven Asynchronous Planning for Embodied AI Agents

1️⃣ 一句话总结

为解决具身AI智能体每次行动都需要调用大语言模型导致的高延迟和高成本问题，本文提出了一种名为AgenticCache的规划框架，它利用缓存已生成的行动序列来替代频繁的模型调用，并通过后台异步更新保证缓存内容的准确性，在多个标准测试中将任务成功率提升22%，同时将延迟和计算成本分别降低65%和50%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18484

arXiv 提交日期: 2026-04-20

multi-modal agents model training vision-language-action embodied ai 3d geometric reasoning foundation model physical cues

XEmbodied：一个为大规模具身环境增强几何与物理线索的基础模型 / XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments

1️⃣ 一句话总结

这篇论文提出了一个名为XEmbodied的新型基础模型，它通过巧妙融合三维几何信息和物理线索，显著提升了智能体在大规模真实环境中的空间理解、交互与泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13633

arXiv 提交日期: 2026-04-15

robotics agents systems embodied ai mobile manipulation spatial memory adaptive policy long-horizon tasks

ESCAPE：面向长视野移动操作任务的片段式空间记忆与自适应执行策略 / ESCAPE: Episodic Spatial Memory and Adaptive Execution Policy for Long-Horizon Mobile Manipulation

1️⃣ 一句话总结

这篇论文提出了一个名为ESCAPE的智能体系统，它通过构建持久的3D空间记忆和动态协调导航与操作的自适应策略，显著提升了机器人在复杂室内环境中执行多步骤任务的鲁棒性和成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12626

arXiv 提交日期: 2026-04-14

robotics agents computer vision 3d gaussian splatting embodied ai navigation simulator dynamic avatars cross-domain generalization

Habitat-GS：一个采用动态高斯溅射的高保真导航模拟器 / Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting

1️⃣ 一句话总结

这篇论文提出了一个名为Habitat-GS的新型模拟器，它通过结合高画质的3D高斯溅射渲染和可驱动的动态高斯数字人，来训练能在真实、人多的环境中更好地进行导航的AI智能体。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11689

arXiv 提交日期: 2026-04-13

robotics computer vision multi-modal vision-language-action latent action representation benchmark visual foundation models embodied ai

LARY：一种用于可泛化视觉-动作对齐基准的潜在动作表征 / LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

1️⃣ 一句话总结

这篇论文提出了一个名为LARY的基准测试，通过大规模实验发现，未经动作监督训练的通用视觉模型在将视频理解转化为机器人控制动作方面，比专门为机器人设计的模型表现更好，并且语义层面的抽象表征比像素级信息更能有效连接视觉与动作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00265

arXiv 提交日期: 2026-03-31

agents benchmark natural language processing embodied ai collaborative navigation human-agent interaction evaluation framework visual-language navigation

超越策略的交互基准测试：一个用于协作实例目标导航的可复现基准 / Benchmarking Interaction, Beyond Policy: a Reproducible Benchmark for Collaborative Instance Object Navigation

1️⃣ 一句话总结

这篇论文提出了首个可复现的协作实例目标导航基准QAsk-Nav，它能独立评估导航和协作提问能力，并基于此开发了一个更小、更快、泛化能力更强的轻量级统一导航模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27577

arXiv 提交日期: 2026-03-29

natural language processing agents multi-modal vision-language navigation structured language embodied ai generalization language model reasoning

用于高效且可泛化的视觉语言导航的结构化观察语言 / Structured Observation Language for Efficient and Generalizable Vision-Language Navigation

1️⃣ 一句话总结

这篇论文提出了一种名为SOL-Nav的新方法，它将机器人看到的视觉图像转换成结构化的文字描述，然后与语言指令一起输入给预训练的语言模型来导航，这种方法不仅让模型更小、训练更简单，还能更好地适应没见过的环境。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24018

arXiv 提交日期: 2026-03-25

agents multi-modal model training embodied ai vision-language models experiential learning knowledge transfer self-improving agents

ELITE：面向自我提升具身智能体的经验学习与意图感知迁移框架 / ELITE: Experiential Learning and Intent-Aware Transfer for Self-improving Embodied Agents

1️⃣ 一句话总结

这篇论文提出了一个名为ELITE的智能体框架，它能让机器人通过‘在实践中反思和总结’的方式，自动从自己的失败经验中学习有效策略，并把这些策略灵活应用到类似的新任务上，从而显著提升其在复杂物理环境中完成任务的可靠性和成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17712

arXiv 提交日期: 2026-03-18

robotics agents computer vision zero-shot navigation exploration strategy multi-floor environments adaptive planning embodied ai

AERR-Nav：用于零样本目标导航的自适应探索-恢复-回忆策略 / AERR-Nav: Adaptive Exploration-Recovery-Reminiscing Strategy for Zero-Shot Object Navigation

1️⃣ 一句话总结

这篇论文提出了一种名为AERR-Nav的新方法，通过让机器人在探索、恢复和回忆三种状态间智能切换，并采用快慢思考模式，有效解决了机器人在未知多层环境中寻找从未见过物体时容易迷路或卡住的问题，从而实现了更优的导航性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.27578

1️⃣ 一句话总结

arXiv ID: 2604.24039

1️⃣ 一句话总结

arXiv ID: 2604.18484

1️⃣ 一句话总结

arXiv ID: 2604.13633

1️⃣ 一句话总结

arXiv ID: 2604.12626

1️⃣ 一句话总结

arXiv ID: 2604.11689

1️⃣ 一句话总结

arXiv ID: 2604.00265

1️⃣ 一句话总结

arXiv ID: 2603.27577

1️⃣ 一句话总结

arXiv ID: 2603.24018

1️⃣ 一句话总结

arXiv ID: 2603.17712

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.27578 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24039 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18484 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13633 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12626 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11689 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00265 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27577 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24018 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17712 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.27578

arXiv ID: 2604.24039

arXiv ID: 2604.18484

arXiv ID: 2604.13633

arXiv ID: 2604.12626

arXiv ID: 2604.11689

arXiv ID: 2604.00265

arXiv ID: 2603.27577

arXiv ID: 2603.24018

arXiv ID: 2603.17712