arXiv ID:
2606.04708
VISTA:面向视觉-语言-动作模型训练的UMI数据视觉校准与物理验证适配框架 / VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training
1️⃣ 一句话总结
本文提出VISTA框架,通过视觉问答数据集解决腕部鱼眼相机视角与预训练模型不匹配的问题,并引入物理验证流水线剔除机器人运动中不可行的轨迹,从而让从日常人类演示数据训练的机器人能更可靠地执行复杂操作任务。