arXiv ID:
2605.30231
arXiv 提交日期: 2026-05-28
超越3D视觉问答:将3D空间先验注入视觉语言模型以增强几何推理能力 / Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning
1️⃣ 一句话总结
本文提出了一种名为GASP的新框架,通过向大型语言模型的各层注入基础的几何先验(如点对应关系和深度一致性),而无需依赖专门的3D问答数据集,显著提升了视觉语言模型在3D空间推理任务上的表现,例如在空间基准测试上取得了高达29%的性能提升。