arXiv ID:
2602.22932
arXiv 提交日期: 2026-02-26
MSJoE:联合进化多模态大语言模型与采样器以实现高效长视频理解 / MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding
1️⃣ 一句话总结
这篇论文提出了一种名为MSJoE的新方法,它通过让多模态大语言模型和一个轻量级的关键帧采样器协同学习和进化,智能地从长视频中筛选出少量最相关的画面进行理解,从而在显著提升回答准确率的同时,实现了对长视频的高效分析。