arXiv ID:
2602.15734
arXiv 提交日期: 2026-02-17
基于语言与几何的稀疏体素表征用于整体场景理解 / Language and Geometry Grounded Sparse Voxel Representations for Holistic Scene Understanding
1️⃣ 一句话总结
这项研究提出了一种新方法,通过结合语言和几何信息,在一个统一的框架内同时建模3D场景的外观、语义和几何结构,从而实现了比现有技术更优的整体场景理解和重建效果。