arXiv ID:
2603.29252
arXiv 提交日期: 2026-03-31
通过视觉记忆机制扩展多模态大语言模型的长视频理解能力 / Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism
1️⃣ 一句话总结
这篇论文提出了一种名为FlexMem的无训练新方法,通过模拟人类观看视频时不断回忆相关片段的视觉记忆机制,使多模态大语言模型能够理解超长甚至无限长度的视频内容,并在单张消费级显卡上高效处理超过1000帧的视频。