arXiv ID:
2512.16561
arXiv 提交日期: 2025-12-18
N3D-VLM:原生三维感知赋能视觉语言模型实现精准空间推理 / N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为N3D-VLM的新框架,它通过让AI模型直接‘看见’并定位三维空间中的物体,从而显著提升了其对物体间前后、上下等空间关系的理解和推理能力,比现有方法更准确、更易于解释。