📄 论文总结
OmniEVA:面向具身智能的通用规划器
OmniEVA: An Embodied Versatile Planner for General Embodied Intelligence
1️⃣ 一句话总结
OmniEVA是一个基于多模态大语言模型的通用具身规划器,通过任务自适应的3D接地机制和具身感知推理框架,显著提升了机器人在复杂环境中的空间推理和任务规划能力。
2️⃣ 论文创新点
1. 任务自适应门控路由机制(TAGR)
- 创新点是什么:一种动态控制3D位置编码注入的门控模块,根据任务上下文需求选择性集成3D特征
- 与已有方法的区别/改进:解决了硬编码3D几何注入策略忽略任务相关性的问题,避免了不必要的计算和噪声嵌入
- 为什么有意义:为不同的具身任务实现了上下文感知的3D接地,提升了在几何丰富环境中的适应性
2. 具身感知推理框架
- 创新点是什么:将任务目标、环境上下文和物理约束共同纳入推理循环的框架
- 与已有方法的区别/改进:解决了当前方法往往忽略真实机器人物理约束和能力的问题
- 为什么有意义:生成的规划决策既是目标导向的,又是实际可执行的,提高了规划的现实验证性
3. TE-GRPO算法
- 创新点是什么:任务与具身感知的广义强化学习优化算法,结合任务执行和具身可行性奖励
- 与已有方法的区别/改进:通过渐进式课程学习策略平衡语义正确性和物理可行性
- 为什么有意义:改善了生成计划的可执行性和执行成功率
3️⃣ 主要结果与价值
实验结果亮点
- 在8个公开具身推理基准中取得7个SOTA结果
- 在HM3D和MP3D数据集的物体导航任务中表现优异
- 纯文本3D视觉定位在ScanRefer基准上达到55.8%准确率,超越之前最佳44.4%
- 8B参数模型在多个2D/3D基准上超越GPT-4o、Gemini-2.5-Pro等更大模型
实际应用价值
- 为机器人提供了端到端的空间理解和任务规划能力
- 显著提高了在真实机器人设置中的可执行性和成功率
- 降低了评估开销,支持大规模具身能力评估
- 实现了紧凑模型参数与卓越性能的平衡
4️⃣ 术语表
- OmniEVA:一个具身通用规划器,通过任务自适应的3D接地和具身感知推理来提升具身推理和任务规划能力
- MLLMs:多模态大语言模型,能够理解和推理多种模态(如文本、图像、视频)信息
- TAGR:任务自适应门控路由模块,用于基于任务和场景条件动态控制3D位置编码注入的门控机制
- TE-GRPO:任务与具身感知的GRPO算法,结合物理约束和多模态反馈的强化微调方法
- EvalExec:评估生成计划在机器人运动学、可达性和环境限制等约束下的执行可行性