arXiv ID:
2512.13080
arXiv 提交日期: 2025-12-15
通过人类视频的视觉-物理对齐实现空间感知的视觉-语言-动作预训练 / Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos
1️⃣ 一句话总结
这篇论文提出了一种新的预训练方法,通过利用人类视频将2D视觉信息与3D物理空间对齐,让机器人AI模型在正式学习任务前就具备三维空间理解能力,从而显著提升了机器人在真实环境中执行动作的准确性和适应性。