arXiv ID:
2604.02093
arXiv 提交日期: 2026-04-02
GroundVTS:用于视频时序定位的多模态大语言模型中的视觉令牌采样 / GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding
1️⃣ 一句话总结
这篇论文提出了一种名为GroundVTS的新方法,它能让视频大语言模型更智能地筛选视频关键片段,而不是均匀采样所有画面,从而显著提升了在视频中精准定位特定时刻的能力。