arXiv ID:
2602.10551
C^2ROPE:用于三维大型多模态模型推理的因果连续旋转位置编码 / C^2ROPE: Causal Continuous Rotary Positional Encoding for 3D Large Multimodal-Models Reasoning
1️⃣ 一句话总结
这篇论文提出了一种名为C^2ROPE的改进位置编码方法,通过同时考虑视觉特征的空间连续性和因果依赖关系,解决了现有三维大模型在处理长序列视觉信息时容易丢失空间细节和忽略早期内容的问题,从而提升了模型在三维场景理解和问答任务上的表现。