arXiv ID:
2512.16909
arXiv 提交日期: 2025-12-18
MomaGraph:用于具身任务规划的、具备状态感知能力的统一场景图与视觉语言模型 / MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
1️⃣ 一句话总结
这篇论文提出了一个名为MomaGraph的统一场景表示方法,它结合了空间、功能和物体状态信息,并配套发布了首个大规模任务驱动场景图数据集与评估基准,同时训练了一个能根据场景图进行零样本任务规划的视觉语言模型,显著提升了家庭环境中移动机械臂的任务规划性能。