arXiv ID:
2602.03615
arXiv 提交日期: 2026-02-03
KTV:用于高效免训练视频大语言模型的关键帧与关键令牌选择 / KTV: Keyframes and Key Tokens Selection for Efficient Training-Free Video LLMs
1️⃣ 一句话总结
这篇论文提出了一种名为KTV的两阶段方法,通过智能选择视频中的关键画面并进一步筛选画面中的关键视觉元素,在无需额外训练的情况下,大幅提升了现有图像理解模型处理长视频的效率和准确性。