arXiv ID:
2512.19949
视频基础模型编码了多少3D信息? / How Much 3D Do Video Foundation Models Encode?
1️⃣ 一句话总结
这篇论文通过一个通用框架评估了现有视频大模型对三维世界的理解能力,发现即使未经专门的3D数据训练,顶尖的视频生成模型也能展现出强大的、甚至超越专业3D模型的3D场景和物体认知能力。