arXiv ID:
2512.19535
arXiv 提交日期: 2025-12-22
CASA:通过自注意力实现交叉注意力,用于高效的视觉-语言融合 / CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion
1️⃣ 一句话总结
这篇论文提出了一种名为CASA的新方法,它通过巧妙地在交叉注意力层中引入文本自注意力机制,显著提升了视觉-语言模型在处理图像细节时的性能,同时保持了模型在处理长视频或对话时的高效性。