arXiv ID:
2605.28548
arXiv 提交日期: 2026-05-27
GEM:生成式监督助力具身智能 / GEM: Generative Supervision Helps Embodied Intelligence
1️⃣ 一句话总结
这篇论文提出了一种名为GEM的具身视觉语言模型,通过在预训练阶段引入深度图生成任务,弥补了高层语义理解与低层空间物理知识之间的鸿沟,显著提升了机器人在仿真和真实环境中的任务执行能力。