arXiv ID:
2602.08024
arXiv 提交日期: 2026-02-08
FlashVID:一种基于无训练树状时空令牌合并的高效视频大语言模型 / FlashVID: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging
1️⃣ 一句话总结
这篇论文提出了一种名为FlashVID的无训练加速框架,它通过智能合并视频中相似或冗余的视觉信息块,让视频大模型在仅处理10%数据量的情况下,就能保持99%以上的理解性能,从而大幅提升了处理长视频的效率。