arXiv ID:
2512.08829
InfiniteVL:融合线性与稀疏注意力,实现高效、无限输入的视觉语言模型 / InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为InfiniteVL的新型视觉语言模型架构,它巧妙结合了两种注意力机制,在保持高性能的同时,将计算复杂度从平方级降为线性级,从而实现了对超长图像或视频内容的高效、实时理解,且训练数据需求极低。