arXiv ID:
2606.12125
Q-Fold:面向长视频理解的查询感知式焦点-上下文时空折叠方法 / Q-Fold: Query-Aware Focus-Context Spatio-Temporal Folding for Long Video Understanding
1️⃣ 一句话总结
本文提出了一种无需额外训练的输入构建框架Q-Fold,通过根据用户查询将长视频中相关片段保留为高保真帧、不相关片段折叠成保持时间顺序的紧凑布局,从而在有限计算资源下同时保留关键视觉证据和广泛时间覆盖,显著提升了多模态大模型在长视频理解任务上的表现。