← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

📄 论文总结

中英文论文题目：
《GroundingOcc: 3D Occupancy Grounding via Language-Guided Voxel Perception》
《GroundingOcc：基于语言引导体素感知的3D占据空间定位》

1️⃣ 一句话总结

这篇论文提出了3D occupancy grounding这一新任务，通过自然语言描述在3D场景中精确定位物体并预测其体素级占据空间，解决了传统边界框方法难以捕捉不规则形状或部分遮挡物体的问题；作者设计了端到端模型GroundingOcc并构建了首个多模态基准数据集Talk2Occ，实现了从粗到细的空间感知，为自动驾驶和人机交互提供了更精细的解决方案。

2️⃣ 论文创新点

1. 任务创新：定义3D occupancy grounding

创新点：首次将自然语言描述与体素级占据预测结合，要求模型同时完成物体定位和3D空间占据预测。
区别：传统3D视觉接地（如bounding box定位）无法表达物体内部结构或部分遮挡（如挖掘机臂），而体素表示能捕捉更精细的几何细节。
意义：为自动驾驶、机器人操作等需要高精度空间理解的场景提供新范式。

2. 方法创新：GroundingOcc框架

创新点：单阶段多模态网络，整合Vision-Language PAN模块、2D grounding分支、深度估计模块和3D占据解码器。
区别：
传统方法依赖两阶段流水线（如先检测后定位），而GroundingOcc通过多任务联合训练（2D-3D损失、深度监督）实现端到端优化。
提出几何grounding标签监督3D占据预测，结合语义与空间信息。
意义：计算效率提升30%，且支持动态多模态特征融合（LiDAR+图像+文本）。

3. 数据创新：Talk2Occ基准

创新点：首个融合自然语言描述与体素标注的数据集（扩展自nuScenes和Talk2Car）。
区别：现有数据集（如ScanRefer）仅提供边界框标注，而Talk2Occ包含11,498个语言-体素对，覆盖复杂场景和多样物体类别。
意义：填补了细粒度3D语言接地任务的评估空白，支持Acc@0.25/0.5等量化指标。

4. 技术子创新

深度真值生成：通过3D占据栅格的射线投射（ray-casting）生成稠密深度图，优于稀疏LiDAR投影。
多模态融合：Vision-Language PAN模块动态聚合文本与图像特征，通过Sigmoid激活实现自适应交互。

3️⃣ 主要结果与价值

实验结果亮点

性能优势：GroundingOcc在Talk2Occ上Acc@0.25达52.3%，较最佳基线（Multi-modal）提升12.1%；两阶段优化（GroundingOcc-Refine）进一步将Unique类别准确率从15.38%提升至19.78%。
几何理解：引入几何监督损失后，不规则物体的占据预测IoU提高8.7%。
效率：单阶段框架比两阶段方法快1.8倍（RTX 3090 GPU）。

实际应用价值

自动驾驶：精准理解“左前方被部分遮挡的卡车”等复杂指令，提升导航安全性。
机器人交互：支持“抓取工具手柄”等需细粒度空间操作的任务。
跨领域扩展：框架可迁移至AR/VR、工业检测等需要语言引导3D感知的场景。

4️⃣ 术语表

3D occupancy grounding：通过自然语言在3D场景中定位物体并预测其体素级占据空间的任务。
GroundingOcc：论文提出的端到端多模态3D占据定位模型，含Vision-Language PAN等模块。
Talk2Occ：融合语言描述与体素标注的基准数据集，基于nuScenes和Talk2Car构建。
Vision-Language PAN：多尺度特征金字塔模块，动态融合图像与文本特征（源自YOLO-World）。
Acc@0.25/0.5：基于IoU阈值的占据预测准确率评估指标（阈值分别为25%和50%重叠）。
BEV (Bird’s Eye View)：通过体素特征高度维度池化生成的2D俯视图表示，用于3D框预测。

（总结已合并重复术语与创新点，剔除冗余信息，突出核心贡献与跨学科可读性。）

📄 打开原文 PDF