arXiv ID:
2604.08120
小型视觉语言模型:长视频理解的智能压缩器 / Small Vision-Language Models are Smart Compressors for Long Video Understanding
1️⃣ 一句话总结
这篇论文提出了一个名为Tempo的高效框架,它利用小型视觉语言模型作为智能压缩器,能够根据用户查询意图,动态且精准地压缩长达数小时的视频内容,在极低的计算成本下实现超越大型模型的长视频理解能力。