arXiv ID:
2603.19235
arXiv 提交日期: 2026-03-19
生成模型懂空间:释放隐式三维先验用于场景理解 / Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
1️⃣ 一句话总结
这篇论文提出了一种新方法,通过挖掘大规模视频生成模型中隐含学习到的三维结构和物理规律知识,来增强多模态大语言模型的空间感知与推理能力,无需依赖稀缺的三维标注数据。