arXiv ID:
2512.09928
arXiv 提交日期: 2025-12-10
HiF-VLA:基于运动向量的双向时序推理视觉语言动作模型 / HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
1️⃣ 一句话总结
本文提出了HiF-VLA框架,通过将运动视为紧凑的时序表示,并整合后见、洞见和先见进行双向时序推理,有效解决了现有视觉语言动作模型因时间近视导致的长期任务连贯性问题,并在多个基准测试和真实世界任务中展现出卓越性能。