🤖 系统
12-03 15:03
Video4Spatial:通过上下文引导的视频生成迈向视觉空间智能 / Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation
1️⃣ 一句话总结
这篇论文提出了一个名为Video4Spatial的框架,它证明仅通过视频数据训练的视频生成模型,就能像人一样理解复杂的空间关系,并成功完成场景导航和物体定位等需要空间推理的任务。