arXiv ID:
2603.23186
arXiv 提交日期: 2026-03-24
ViKey:通过视觉提示增强视频时序理解 / ViKey: Enhancing Temporal Understanding in Videos via Visual Prompting
1️⃣ 一句话总结
这篇论文提出了一种名为ViKey的免训练框架,通过为视频帧添加序号等简单视觉提示,帮助视频大语言模型更好地理解事件的时间顺序和关联,从而在只使用少量视频帧的情况下,也能达到与处理全部密集帧相近的时序推理性能。