← 返回列表

菜单

🤖 系统
📄 Abstract - UniVideo: A Unified Framework for Multimodal Video Understanding, Generation and Editing
正在获取摘要...
详细标签: multimodal video framework video understanding video editing diffusion transformer zero-shot generalization 或 搜索:

📄 论文总结

UniVideo:统一的多模态视频理解、生成与编辑框架 / UniVideo: A Unified Framework for Multimodal Video Understanding, Generation and Editing


1️⃣ 一句话总结

UniVideo是一个统一的多模态视频框架,通过双流设计结合多模态大语言模型进行指令理解,以及多模态扩散变换器进行视频生成,能够准确解释复杂多模态指令并保持视觉一致性,支持多种视频任务和任务组合。


2️⃣ 论文创新点

1. 统一视频多模态建模

2. 双流统一架构

3. 任务泛化与组合

4. 无掩码视频编辑

5. 多任务学习架构


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF