arXiv ID:
2602.21186
arXiv 提交日期: 2026-02-24
Spa3R:用于三维视觉推理的预测性空间场建模 / Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning
1️⃣ 一句话总结
这篇论文提出了一种名为Spa3R的自监督学习框架,它仅从二维多视角图像中就能学习到统一且视角不变的三维空间表征,并通过一个轻量级适配器将这种空间理解能力赋予现有视觉语言模型,从而在三维视觉问答任务上取得了领先的性能。