arXiv ID:
2603.08131
arXiv 提交日期: 2026-03-09
UniGround:通过免训练场景解析实现通用3D视觉定位 / UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing
1️⃣ 一句话总结
这篇论文提出了一种名为UniGround的新方法,它无需额外训练,仅通过视觉和几何推理就能在复杂的三维场景中,根据自然语言描述精准定位任何物体,突破了以往依赖预训练模型的知识局限,在开放世界场景中展现出强大的泛化能力和鲁棒性。