arXiv ID:
2512.13604
arXiv 提交日期: 2025-12-15
LongVie 2:多模态可控的超长视频世界模型 / LongVie 2: Multimodal Controllable Ultra-Long Video World Model
1️⃣ 一句话总结
这篇论文提出了一个名为LongVie 2的三阶段训练框架,通过融合多种控制信号、优化长时生成质量以及确保时间连贯性,能够生成高质量、可控且连贯的极长视频(最长可达5分钟),是构建视频世界模型的重要进展。