📄 论文总结
UniVideo:统一的多模态视频理解、生成与编辑框架 / UniVideo: A Unified Framework for Multimodal Video Understanding, Generation and Editing
1️⃣ 一句话总结
UniVideo是一个统一的多模态视频框架,通过双流设计结合多模态大语言模型进行指令理解,以及多模态扩散变换器进行视频生成,能够准确解释复杂多模态指令并保持视觉一致性,支持多种视频任务和任务组合。
2️⃣ 论文创新点
1. 统一视频多模态建模
- 创新点:将理解、生成和编辑任务整合到单一视频框架中,突破了现有模型主要局限于图像领域的局限。
- 区别/改进:通过双流设计(MLLM+MMDiT)实现多模态指令的准确理解和视频生成,替代了依赖文本编码器或任务特定模块的传统方法。
- 意义:支持任务组合(如编辑与风格转移结合)和从图像编辑数据向自由形式视频编辑的能力迁移,提升了模型的泛化性和多功能性。
2. 双流统一架构
- 创新点:UniVideo采用MLLM作为理解分支和MMDiT作为生成分支的双流设计,将多模态推理与生成能力结合。
- 区别/改进:相比仅依赖语义编码器或使用可学习查询令牌的先前方法,该设计能更好地处理多模态输入,支持上下文视频生成,并保持跨流一致性。
- 意义:实现了视频理解、生成和编辑的统一,提升了处理多样视频任务的能力和性能。
3. 任务泛化与组合
- 创新点:UniVideo通过统一训练能够泛化到训练期间未见过的任务组合,例如在单一指令中删除一个身份同时交换另一个身份。
- 区别/改进:无需特定设计即可处理新任务组合,展示了统一框架的优势。
- 意义:增强了模型的适应性和应用范围,支持复杂多任务操作。
4. 无掩码视频编辑
- 创新点:UniVideo在上下文视频编辑中无需显式掩码输入即可定位编辑区域和引导生成。
- 区别/改进:相比需要掩码输入的基线模型,UniVideo操作更加简便。
- 意义:降低了视频编辑的技术门槛,提高了用户体验。
5. 多任务学习架构
- 创新点:采用统一架构处理多个视频任务,而非为每个任务训练独立模型。
- 区别/改进:相比单任务基线,在编辑任务上PF指标提升0.16,SC指标提升0.11。
- 意义:通过大规模图像编辑数据的联合学习,显著提升了模型在上下文编辑任务上的性能。
3️⃣ 主要结果与价值
结果亮点
- 在理解任务(MMBench 83.5,MMMU 58.6,MM-Vet 66.6)和生成任务(VBench T2V 82.58)上都取得了有竞争力的性能
- 在上下文视频生成任务中,在人类评估的主观一致性(SC)和总体质量(Overall)上表现优异或具有竞争力,尤其在SC指标上表现最佳
- 在上下文视频编辑任务(包括插入、替换、删除和风格化)中,是唯一无需掩码的方法,仅基于指令执行编辑,并在多项指标上达到或超越了需要特定掩码输入的专家模型
实际价值
- 支持图像到视频和文本到视频生成,并在上下文视频生成和编辑任务中表现出色
- 具备零样本泛化能力,能够从图像编辑数据迁移能力到视频领域处理未见过的视频编辑指令,以及处理新任务组合
- 能够理解复杂的多模态视觉提示,包括用户在画布上绘制的参考图像和故事计划,以及直接在输入图像上的标注
4️⃣ 术语表
- UniVideo:一个统一的视频理解、生成和编辑框架,采用多模态大语言模型(MLLM)和多模态DiT(MMDiT)的双流设计。
- MLLM:多模态大语言模型,负责在UniVideo中解释复杂的多模态指令。
- MMDiT:多模态扩散变换器,作为生成分支处理视觉生成,整合语义和VAE重建信号。
- 3D positional embeddings:3D位置编码,用于区分条件潜变量和噪声视频潜变量,保持空间索引同时递增时间维度。
- 零样本泛化:模型在没有专门训练的情况下处理未见过的任务和指令的能力。
- In-Context Video Generation:上下文视频生成,指根据给定的参考图像(单张或多张)生成视频的任务,包括单身份(single-ID)和多身份(multi-ID)场景。
- PF:性能指标,在消融实验中用于衡量模型在不同任务上的表现,值越高表示性能越好。
- VBench:用于文本到视频生成任务的评估基准,包含946个提示词,覆盖16个评估维度如主体一致性、背景一致性、美学质量等。
- UNICBench:用于视频编辑任务的评估基准,包含ID插入、ID替换、ID删除和风格化四个具体任务。
- ID交换:将目标视频中的特定元素替换为参考ID中的对应元素,同时保持原始视频的上下文和运动。