arXiv ID:
2606.05833
arXiv 提交日期: 2026-06-04
从视频中学习几何表示,用于具备空间智能的多模态大语言模型 / Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models
1️⃣ 一句话总结
本文提出GeoVR框架,无需依赖大规模3D数据,仅通过二维视频序列和多目标几何学习策略(如相机姿态估计、深度图回归等),让多模态大语言模型自动形成三维空间感知能力,从而在空间推理任务中达到最先进水平。