NExT-Vid:一种用于联合建模图像和视频的掩码下一帧自回归视觉生成预训练框架 / Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations
1️⃣ 一句话总结
本文提出了一种名为NExT-Vid的新型视觉生成预训练框架,它通过上下文隔离的自回归预测器和条件流匹配解码器,将语义表征与目标解码解耦,有效解决了现有自回归预训练方法中语义定位不准、生成质量差的问题,并在多个视频理解基准上取得了领先的性能。
2️⃣ 论文创新点
1. 掩码下一帧生成预训练范式
- 创新点:提出了一种新的预训练任务,即在输入给生成器的历史帧序列上施加掩码操作,然后预测下一帧,旨在通过增加任务难度来学习更本质的语义表征。
- 区别/改进:改进了传统的下一帧预测任务,通过掩码减少时间冗余性带来的简单复制问题,迫使模型学习更本质的语义表示。
- 意义:使生成式预训练更适用于表示学习,能获得对下游任务更通用的视频/图像表示,而不仅仅是擅长生成。
2. 上下文隔离的自回归预测器
- 创新点:将完整的生成过程G分解为两个阶段:1) 通过语义编码器E和自回归表示预测器AR预测当前帧的隐式表示;2) 通过生成解码器G进行解码生成。这是模型的核心创新点,旨在将语义表征与目标解码解耦。
- 区别/改进:受CAE和GPT中间层存在语义表示的启发,显式地将语义预测与目标解码分离,模仿了生成模型自主学习的两个阶段过程。
- 意义:使模型能够更专注于学习高质量的语义表示,为后续的解码生成提供更好的基础,可能提升表示的可迁移性。
3. 条件流匹配解码器
- 创新点:采用条件流匹配模型作为生成器,以自回归预测器输出的隐式表示为条件信息,在VAE压缩的潜在空间中进行去噪生成,以实现高质量、多样化的帧生成。
- 区别/改进:利用流匹配的线性插值概率路径和速度回归目标,实现了高效、高质量且多样化的视频帧生成。
- 意义:为视频生成提供了一个强大且灵活的生成模块,能够处理复杂的条件信息并产生逼真的输出。
4. 表示对齐正则化与帧隔离注意力
- 创新点:在自回归预测阶段,通过引入一个由EMA更新的参考编码器,并计算预测的隐式表示与参考表示之间的均方误差损失,来增强预测表示对当前帧的表征能力,同时通过停止梯度操作,有效防止了历史上下文信息参与后续的生成解码过程。在生成解码器中,通过帧隔离注意力掩码实现各帧的独立生成。
- 区别/改进:表示对齐确保了自回归预测的因果性,使模型专注于根据历史信息预测未来,而不是简单地复制或混合历史信息。帧隔离注意力降低了生成复杂度。
- 意义:确保了自回归预测的因果性,并揭示了在生成式预训练中,平衡编码器表示学习与解码器生成任务之间关系的关键机制。
3️⃣ 主要结果与价值
结果亮点
- NExT-Vid在多个视频理解基准(Kinetics-400, ImageNet-1K, Something-Something v2, Diving48)上超越了其他生成式预训练方法,其最大的ViT-G模型在所有基准上都取得了领先性能。
- 与另一自回归模型Toto相比,在K400和IN1K上分别有8.7和6.1的显著提升,证明了自回归流匹配生成式训练在语义表示上优于直接自回归方法,且下一帧生成训练优于逐令牌训练。
- 消融研究验证了模型关键设计的有效性:完整的模型设计(结合流匹配生成、特征对齐正则化和上下文隔离预测)取得了最佳平均性能;在生成目标中,VAVAE表现最好;具有挑战性的训练目标(如掩码)对于学习高质量表示至关重要。
- 模型和数据规模扩展实验表明,性能随数据量增加先快速增长后趋于稳定,并在“冷却”阶段后继续提升;模型参数从300M增至1.1B时性能显著提升,尤其在冷却阶段后ViT-G大幅超越ViT-H。
实际价值
- 为大规模视频生成模型的训练策略和资源配置提供了实证依据。
- 探索了统一的视觉自回归生成预训练,旨在更好地捕获视频中至关重要的时序信息,为下游任务学习更有效的视觉表征。
- 通过调整训练后期的帧采样策略可以专门增强模型对时序运动信息的建模能力,例如在需要强动作识别能力的数据集(SSv2, Diving48)上性能显著提升。
4️⃣ 术语表
- NExT-Vid:本文提出的新型自回归流匹配视觉生成预训练方法,基于掩码下一帧预测,采用上下文隔离设计,旨在通过高质量生成建模有效建模视频帧间时间信息并增强视频理解。
- Masked Next-Frame Generative Pretraining:掩码下一帧生成预训练。一种预训练方法,在历史帧序列上应用掩码后,再进行下一帧的生成预测,旨在通过增加任务难度来学习更好的语义表示。
- Context-Isolated Autoregressive Prediction:上下文隔离的自回归预测。将生成过程分解为语义表示预测和生成解码两个阶段,其中语义预测阶段基于掩码后的历史帧上下文进行,旨在解耦语义表征与目标解码。
- 条件流匹配:一种生成模型,旨在通过训练一个向量场来拟合从噪声分布到条件数据分布的变换路径,通常使用线性插值构建条件概率路径,并以速度回归为目标进行训练。在本文中用作生成解码器。
- 表示对齐正则化:在自回归视频预测框架中引入的一种损失项,通过强制要求预测的隐式表示与一个参考编码器(处理完整未掩码序列)产生的表示对齐,来增强预测质量并隔离历史上下文。
- DiT:一种用于训练和生成条件流匹配的标准模型,在本研究中作为流匹配解码器的核心架构。
- VAE / VAVAE:变分自编码器。用于从视频中提取帧级潜在表示,作为生成目标以减少计算成本。VAVAE是本文实验中表现最佳的一种视频生成目标变体。
- 信息隔离:在去噪过程中,通过禁用自注意力等机制来防止噪声目标之间的信息泄露,以增强语义表示质量。