HiF-VLA:基于运动向量的双向时序推理视觉语言动作模型 / HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
1️⃣ 一句话总结
本文提出了HiF-VLA框架,通过将运动视为紧凑的时序表示,并整合后见、洞见和先见进行双向时序推理,有效解决了现有视觉语言动作模型因时间近视导致的长期任务连贯性问题,并在多个基准测试和真实世界任务中展现出卓越性能。
2️⃣ 论文创新点
1. 以运动作为紧凑的时序表示
- 创新点:提出将运动(状态间的变化)而非原始像素帧作为表示历史和世界动态的核心,以此过滤冗余的静态信息,更高效地捕捉任务相关动态。
- 区别/改进:相比直接堆叠多帧历史图像的方法,此方法计算量更低,减少了推理延迟,并避免了像素级噪声对模型学习的干扰。
- 意义:为VLA模型提供了一种更精确、高效的历史表示方式,是解决时间近视和提升长时程操作连贯性的关键基础。
2. 双向时序推理框架(HiF-VLA)
- 创新点:构建了一个统一框架,整合了后见(Hindsight)、洞见(Insight)和先见(Foresight)。通过后见编码过去动态,通过先见推理预测未来运动,并通过一个后见调制的联合专家将两者整合。
- 区别/改进:使模型能够同时基于已验证的过去结果和预测的未来动态进行决策,超越了仅依赖当前观测或简单历史堆叠的现有方法。
- 意义:实现了“边思考边行动”的决策范式,增强了模型在长时程任务中的时序连贯性和目标导向行为。
3. 后见调制的联合专家模块
- 创新点:设计了一个将时间和动作表征统一在单一空间内的专家模块,将后见作为对先见和动作流的自上而下约束。
- 区别/改进:克服了帧级历史编码和像素级未来预测带来的计算开销和冗余问题,实现了时间协调的决策。
- 意义:支持“边行动边思考”的范式,为因果一致且时间连贯的长时程运动生成提供了机制。
4. 联合动作与运动预测训练目标
- 创新点:采用双目标损失函数,包括动作预测的L1损失和运动重建的L1损失,通过平衡因子λ进行加权。
- 区别/改进:同时优化动作准确性和运动重建质量,确保两者预测的协调性。
- 意义:使模型能够生成与预测动作相对应的、物理上合理的未来运动轨迹,提升了整体行为的真实性。
3️⃣ 主要结果与价值
结果亮点
- 在LIBERO-Long基准测试中,HiF-VLA取得了96.4%的平均成功率,显著优于Seer、UniVLA、OpenVLA-OFT等基线模型。
- 在CALVIN ABC-D基准测试中,其平均任务长度指标优于基线0.25,展现了优异的泛化能力。
- 效率分析表明,与基于子目标的方法相比,HiF-VLA的先见模块引入的延迟和GPU内存开销可忽略不计(分别为基线的0.13倍和0.03倍),而密集多帧输入会使推理速度减慢3.15倍。
- 在真实世界长时程任务评估中,HiF-VLA凭借其广阔的时间感知野,能够可靠检测细微状态转换,显著优于基线模型OpenVLA-OFT(如在Press-Buttons-Order任务中,OpenVLA-OFT成功率仅为17.4%)。
实际价值
- 为机器人任务提供了更鲁棒的动作决策框架,结合了历史动态和未来预见,提升了模型在稀疏观测环境下的性能。
- 通过使用紧凑的运动表征替代密集的RGB输入,显著提升了模型的推理效率和准确性,计算开销和延迟远低于传统的多帧输入方法。
- 模型架构设计使其推理延迟对历史长度不敏感,具有良好的可扩展性,能够高效处理长序列任务,为实际机器人部署中的实时性要求提供了保障。
4️⃣ 术语表
- HiF-VLA:Hindsight, Insight, and Foresight for Vision-Language-Action models的缩写,是本文提出的一个利用运动进行双向时序推理以提升长时程操作性能的统一框架。
- temporal myopia:时间近视,指大多数VLA模型因假设马尔可夫性质、仅依赖当前观测进行决策,而无法有效建模时序依赖,导致长时程任务中连贯性下降的问题。
- Motion Vectors (MVs):运动向量,源自视频编解码标准(如H.264, MPEG-4),用于预测相邻帧间宏块的位移,以紧凑、无冗余的方式编码历史运动轨迹,作为模型的压缩历史先验。
- Hindsight-Modulated Joint Expert:HiF-VLA框架中的一个组件,它在共享潜在空间中联合建模动作和运动,并通过AdaLN利用历史运动进行条件调制。
- LIBERO-Long benchmark:一个用于评估视觉语言动作模型在长时程任务中性能的基准测试,包含十个任务,报告平均成功率。
- CALVIN ABC-D benchmark:一个包含四个室内环境(A-D)的长时程基准测试,策略在A-C上训练,在未见过的D上评估,用于测试模型在连续任务上的泛化能力。
- OpenVLA-OFT:实验中使用的基线模型,在真实世界长时程任务中表现不佳,例如在Press-Buttons-Order任务中成功率仅为17.4%。