📄 论文总结
NaviTrace:用于评估视觉语言模型具身导航能力的新型基准 / NaviTrace: A Novel Benchmark for Evaluating Embodied Navigation Capabilities of Vision-Language Models
1️⃣ 一句话总结
NaviTrace是一个专门用于系统评估视觉语言模型在不同具身形式下导航能力的新型基准,包含1000个多样化真实场景和四种具身类型,通过创新的语义感知轨迹评分方法提供全面评估。
2️⃣ 论文创新点
1. NaviTrace基准
- 创新点:首个专门评估视觉语言模型在具身导航中理解能力的VQA基准,包含1000个多样化真实世界场景和四种具身形式(人类、腿式机器人、轮式机器人、自行车)
- 区别/改进:解决了现有评估方法成本高、可扩展性差和场景简化的问题,克服了传统导航基准依赖模拟环境和仅评估特定机器人的限制
- 意义:为真实世界机器人导航提供了可扩展和可复现的基准,支持更长的规划视野,测试模型的指令跟随、空间理解和物理理解能力
2. 语义感知轨迹评分
- 创新点:结合动态时间规整距离、目标端点误差和基于像素语义的具身条件惩罚的综合评估方法
- 区别/改进:相比昂贵的人工评估方法,提供成本效益更高的评估方案;相比单独使用DTW,更符合人类偏好
- 意义:能够系统评估视觉语言模型的空间基础和目标任务定位能力,为2D导航轨迹提供公平评估标准
3. 多具身类型支持
- 创新点:基准设计考虑了不同具身类型的导航行为差异,支持四种具身形式,每种都有独特的物理能力和行为偏好
- 区别/改进:超越了单一智能体评估,能够评估模型在不同物理约束下的导航策略适应性
- 意义:使基准更贴近现实世界应用,增强测试的普适性和现实关联性
4. 多维度导航挑战分类
- 创新点:系统性定义了七种导航决策挑战,涵盖了从几何地形、语义属性到社会规范和动态障碍等多个层面
- 区别/改进:相比传统仅关注几何障碍的导航评估,该分类更全面地反映了现实世界导航的复杂性
- 意义:为构建更全面、更具挑战性的视觉语言模型导航基准提供了理论基础
3️⃣ 主要结果与价值
结果亮点
- Gemini 2.5 Pro在导航任务评估中总体表现最佳,但所有模型均显著落后于人类专家
- 目标定位是主要挑战,模型在语言推理和空间接地间存在差距
- 具身鲁棒性有限,模型难以适应不同物理约束下的导航需求
- 语义感知评分函数与人类判断具有良好相关性(Spearman相关性达0.8707),比单独使用DTW更符合人类偏好
实际价值
- 为开发导航能力视觉语言模型提供了重要测试平台,推动具身AI发展
- 自动化评估方法大幅降低了人工标注成本,同时保持评估准确性
- 支持跨学科研究,为机器人学、计算机视觉和自然语言处理的交叉领域提供统一评估框架
4️⃣ 术语表
- NaviTrace:用于评估视觉语言模型具身导航能力的VQA基准,包含1000个场景和四种具身形式,专门评估在不同具身导航场景下的性能
- 语义感知轨迹评分:结合动态时间规整距离、目标端点误差和基于语义分割的具身条件惩罚的导航轨迹评估指标
- 视觉语言导航(VLN):结合视觉和语言理解进行导航的任务,现有基准包括R2R、REVERIE、RxR等
- Ground-Truth Trace:定义为一系列2D图像坐标点,描述导航路径。它独立于机器人特定的控制,确保与不同模型架构的兼容性
- DTW (Dynamic Time Warping):动态时间规整,用于计算预测导航轨迹与真实轨迹之间的路径相似度误差,通过动态规划实现
- Mask2Former:用于语义分割的模型,在本研究中用于推断语义掩码并识别危险区域
- Straight Forward:在图像中心放置垂直线的简单基线方法
- Oracle-Goal Straight Line:基线方法之一,已知目标点并通过直线连接起点和目标点的理想化导航策略
- Gemini 2.5 Pro:在导航任务评估中表现最佳的视觉语言模型,支持自动生成推理步骤
- Navila:一种用于导航的腿式机器人视觉-语言-动作模型
- Uni-navid:一种基于视频的视觉-语言-动作模型,用于统一具身导航任务