arXiv ID:
2604.12551
arXiv 提交日期: 2026-04-14
基于交叉注意力的多视角视觉-语言嵌入融合 / Cross-Attentive Multiview Fusion of Vision-Language Embeddings
1️⃣ 一句话总结
这篇论文提出了一种名为CAMFusion的新方法,它通过一个多视角交叉注意力变换器,智能地融合来自不同角度的视觉和语言信息,从而为3D物体生成更优的语义表示,并在多个3D场景理解任务中取得了领先的性能。