🤖 系统
11-30 17:56
📄 论文总结
TimeViper:一种用于高效长视频理解的混合Mamba-Transformer视觉语言模型 / TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding
1️⃣ 一句话总结
这篇论文提出了一个名为TimeViper的混合模型,它结合了Mamba和Transformer的优势,通过创新的信息压缩技术高效处理长达一小时的视频,在保持高性能的同时大幅提升了长视频理解能力。