arXiv ID:
2604.12887
arXiv 提交日期: 2026-04-14
VideoFlexTok:一种从粗到细、长度可灵活调整的视频表征方法 / VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization
1️⃣ 一句话总结
这篇论文提出了一种新的视频表征方法,它不像传统方法那样把视频固定成一个三维网格,而是将其编码成一个长度可变的序列,其中前面的‘粗’令牌捕捉语义和运动等抽象信息,后面的‘细’令牌补充细节,从而让下游的AI模型(如文生视频模型)训练更高效、能处理更长的视频,且模型可以更小。