arXiv ID:
2605.18431
arXiv 提交日期: 2026-05-18
协同视界:基于多模态大语言模型的多机器人协作自我中心空间推理 / Seeing Together:Multi-Robot Cooperative Egocentric Spatial Reasoning with Multimodal Large Language Models
1️⃣ 一句话总结
本文首次提出多机器人协同动态空间推理任务,构建了包含11.4万问答对的大规模基准数据集EgoTeam,并设计了一种结合物理先验知识与光谱分析的SP-CoR框架,使多机器人仅凭各自的第一视角视频就能像人类团队一样协作理解空间位置、时间顺序和互相可见性等问题,在模拟和实体机器人上均显著优于现有方法。