arXiv ID:
2602.11832
arXiv 提交日期: 2026-02-12
JEPA-VLA:视觉语言动作模型需要视频预测性嵌入 / JEPA-VLA: Video Predictive Embedding is Needed for VLA Models
1️⃣ 一句话总结
这篇论文提出,通过在现有视觉语言动作模型中引入一种从视频中预训练得到的、能预测环境动态的视觉表示,可以显著提升机器人操作任务的学习效率和泛化能力。