arXiv ID:
2512.21004
arXiv 提交日期: 2025-12-24
NExT-Vid:一种用于联合建模图像和视频的掩码下一帧自回归视觉生成预训练框架 / Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations
1️⃣ 一句话总结
本文提出了一种名为NExT-Vid的新型视觉生成预训练框架,它通过上下文隔离的自回归预测器和条件流匹配解码器,将语义表征与目标解码解耦,有效解决了现有自回归预训练方法中语义定位不准、生成质量差的问题,并在多个视频理解基准上取得了领先的性能。