arXiv最新AI论文速览速学

🔍

标签: #embodied ai ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: Panoramic Affordance Prediction 03-17

arXiv ID: 2603.15558

arXiv 提交日期: 2026-03-16

computer vision agents benchmark affordance prediction panoramic vision embodied ai dataset visual grounding

全景可供性预测 / Panoramic Affordance Prediction

1️⃣ 一句话总结

这篇论文首次提出并解决了全景图像中的可供性预测问题，通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程，显著提升了AI智能体对360度全景环境的整体感知与交互能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09760

arXiv 提交日期: 2026-03-10

computer vision agents systems affordance grounding panoramic perception embodied ai 360° indoor environments scene understanding

PanoAffordanceNet：面向360度室内环境的整体可供性定位 / PanoAffordanceNet: Towards Holistic Affordance Grounding in 360° Indoor Environments

1️⃣ 一句话总结

这篇论文提出了一个名为PanoAffordanceNet的新框架，它通过创新的技术解决了在360度全景室内环境中精准识别物体功能（即可供性）的难题，并创建了首个高质量全景数据集，为智能体的场景级感知建立了坚实基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09827

arXiv 提交日期: 2026-03-10

multi-modal agents benchmark egocentric video multi-agent systems question answering video understanding embodied ai

MA-EgoQA：基于多智能体第一视角视频的问答 / MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

1️⃣ 一句话总结

这篇论文提出了一个名为MA-EgoQA的新基准测试和数据集，用于评估人工智能模型如何同时理解和回答基于多个智能体第一视角视频的问题，并发现现有模型在这方面存在显著不足，从而为未来多智能体协作系统的开发指明了方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08131

arXiv 提交日期: 2026-03-09

computer vision multi-modal robotics 3d visual grounding scene parsing zero-shot open-vocabulary embodied ai

UniGround：通过免训练场景解析实现通用3D视觉定位 / UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

1️⃣ 一句话总结

这篇论文提出了一种名为UniGround的新方法，它无需额外训练，仅通过视觉和几何推理就能在复杂的三维场景中，根据自然语言描述精准定位任何物体，突破了以往依赖预训练模型的知识局限，在开放世界场景中展现出强大的泛化能力和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03198

arXiv 提交日期: 2026-03-03

multi-modal agents systems spatial intelligence embodied ai multimodal llm model merging cross-embodiment transfer

ACE-Brain-0：将空间智能作为通用具身智能的共享基础框架 / ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

1️⃣ 一句话总结

这篇论文提出了一个名为ACE-Brain-0的通用智能基础模型，其核心思想是利用‘空间智能’作为通用桥梁，成功地将自动驾驶、机器人操控和无人机飞行等不同形态的智能体统一到一个多模态大模型中，并通过创新的训练方法使其在多种任务上达到领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03195

arXiv 提交日期: 2026-03-03

robotics multi-modal model training world models latent motion vision-language-action embodied ai video prediction

世界之链：潜在运动中的世界模型思维 / Chain of World: World Model Thinking in Latent Motion

1️⃣ 一句话总结

这篇论文提出了一种名为CoWVLA的新方法，它通过将视频分解为结构和运动两部分，并让AI模型学习预测连续的运动链，从而更高效地训练机器人视觉-语言-动作模型，使其既能理解世界动态，又保持模型简洁。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22514

arXiv 提交日期: 2026-02-26

robotics multi-modal agents sign language human-robot interaction vision-language-action gesture recognition embodied ai

SignVLA：一种用于实时手语引导机器人操作的免注释词视觉-语言-动作框架 / SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation

1️⃣ 一句话总结

这篇论文提出了一种名为SignVLA的新框架，它能让机器人直接看懂人的手语手势并执行相应操作，无需依赖复杂的手语注释作为中间步骤，从而实现了更自然、低成本且适合安全关键环境的实时人机交互。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20309

arXiv 提交日期: 2026-02-23

multi-modal model training systems post-training quantization vision-language-action diffusion transformer model compression embodied ai

QuantVLA：面向视觉-语言-动作模型的尺度校准训练后量化方法 / QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

1️⃣ 一句话总结

这篇论文提出了一种名为QuantVLA的训练后量化框架，它能在不重新训练模型的情况下，大幅压缩视觉-语言-动作模型的存储占用并提升推理速度，同时保持甚至超越原始模型的性能，为在资源受限设备上部署这类复杂的AI模型提供了实用方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15724

arXiv 提交日期: 2026-02-17

llm agents multi-modal vision-and-language navigation retrieval-augmented efficiency decision-making embodied ai

学习检索可导航候选对象以实现高效视觉语言导航 / Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation

1️⃣ 一句话总结

这篇论文提出了一种检索增强框架，通过引入两层轻量级检索模块来为大语言模型导航提供任务先验并过滤无关选项，从而在不修改模型本身的情况下，显著提升了视觉语言导航任务的效率和稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02975

arXiv 提交日期: 2026-02-03

llm natural language processing agents normative reasoning reference resolution social norms evaluation embodied ai

规范与指代碰撞之处：评估大语言模型的规范性推理能力 / Where Norms and References Collide: Evaluating LLMs on Normative Reasoning

1️⃣ 一句话总结

这项研究通过一个名为SNIC的诊断测试平台发现，即使是当前最先进的大语言模型，在处理需要结合物理和社会背景来理解隐含行为规范的指代任务时，仍然存在明显不足，这揭示了其在应用于具身智能等社会性场景中的一个关键短板。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15558

1️⃣ 一句话总结

arXiv ID: 2603.09760

1️⃣ 一句话总结

arXiv ID: 2603.09827

1️⃣ 一句话总结

arXiv ID: 2603.08131

1️⃣ 一句话总结

arXiv ID: 2603.03198

1️⃣ 一句话总结

arXiv ID: 2603.03195

1️⃣ 一句话总结

arXiv ID: 2602.22514

1️⃣ 一句话总结

arXiv ID: 2602.20309

1️⃣ 一句话总结

arXiv ID: 2602.15724

1️⃣ 一句话总结

arXiv ID: 2602.02975

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15558 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09760 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09827 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08131 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03198 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03195 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22514 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20309 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15724 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02975 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15558

arXiv ID: 2603.09760

arXiv ID: 2603.09827

arXiv ID: 2603.08131

arXiv ID: 2603.03198

arXiv ID: 2603.03195

arXiv ID: 2602.22514

arXiv ID: 2602.20309

arXiv ID: 2602.15724

arXiv ID: 2602.02975