arXiv ID:
2509.13317
arXiv 提交日期: 2025-09-16
空间区域3D感知视觉语言模型 / 3D Aware Region Prompted Vision Language Model
1️⃣ 一句话总结
这篇论文提出了一种能够将2D图像和3D数据统一理解的新模型,用户只需在单张图片或3D空间中简单标注,就能实现跨视角的精确空间推理和测量,无需复杂标注即可应用于真实场景视频分析。