arXiv ID:
2603.22953
arXiv 提交日期: 2026-03-24
面向高效视频-语言预训练的聚类式时空掩码策略 / Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining
1️⃣ 一句话总结
这篇论文提出了一种名为ClusterSTM的智能视频掩码方法,它通过聚类和保留关键帧来高效学习视频与文字的关系,在降低计算成本的同时,显著提升了视频理解、检索和问答等任务的效果。