arXiv ID:
2602.22716
arXiv 提交日期: 2026-02-26
SoPE:基于球坐标的位置嵌入,用于增强3D大视觉语言模型的空间感知能力 / SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs
1️⃣ 一句话总结
这篇论文提出了一种名为SoPE的新方法,通过将三维点云数据映射到球坐标系来改进3D多模态模型的位置编码,使其能更好地理解和表达物体的空间位置与方向,从而提升了模型在3D场景理解任务上的性能。