arXiv ID:
2602.16412
arXiv 提交日期: 2026-02-18
ReMoRa:基于精细化运动表征的多模态大语言模型,用于长视频理解 / ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding
1️⃣ 一句话总结
这篇论文提出了一种名为ReMoRa的新模型,它通过直接处理视频压缩后的运动表征而非大量原始图像帧,高效地解决了多模态大模型理解长视频时计算量过大的难题,并在多个长视频理解测试中取得了领先效果。