← 返回列表

🤖 系统

📄 Abstract - Video-As-Prompt: A Unified Framework for Semantically Controlled Video Generation

⏳ 正在获取摘要...

📄 论文总结

视频作为提示：语义控制视频生成的统一框架 / Video-As-Prompt: A Unified Framework for Semantically Controlled Video Generation

1️⃣ 一句话总结

本文提出了Video-As-Prompt (VAP)框架，首次实现了使用参考视频作为语义提示来统一控制视频生成，避免了传统方法中像素级映射、任务特定设计等限制，并具备零样本泛化能力。

2️⃣ 论文创新点

1. Video-As-Prompt统一框架

创新点：将语义控制视频生成重新定义为上下文生成问题，使用具有目标语义的参考视频作为直接语义提示来指导生成过程
区别/改进：避免了传统方法中不恰当的像素级映射先验、条件特定过拟合或任务特定设计的问题
意义：实现了统一、通用的语义控制视频生成，支持零样本泛化

2. 混合专家Transformer架构

创新点：即插即用的架构设计，用于增强冻结的视频扩散变换器，通过时间偏置位置嵌入消除虚假映射先验
区别/改进：防止灾难性遗忘，通过时间偏置位置嵌入消除虚假映射先验
意义：实现鲁棒的上下文检索和稳定的生成控制

3. VAP-Data数据集

创新点：为语义控制视频生成构建的最大数据集，包含超过10万个配对视频，涵盖100个语义条件
区别/改进：为VAP方法提供支持并推动未来研究
意义：为语义控制视频生成研究提供了大规模基准数据

4. 时间偏置旋转位置编码

创新点：在RoPE中添加时间偏置Δ，解决非像素对齐先验的时序问题
区别/改进：避免原始共享RoPE产生不存在的像素对齐先验
意义：提升视频生成中的时序一致性和对齐精度

3️⃣ 主要结果与价值

结果亮点

在多数指标上超越开源基线，性能与商业模型相当，首次提供了统一的语义控制视频生成模型
用户研究表明VAP在语义对齐和整体质量方面获得最高偏好率
在时间一致性、视觉质量和语义一致性方面优于结构控制方法、DiT骨干网络和条件特定微调方法
展示了强大的零样本生成能力，能够在未见过的语义参考下进行生成

实际价值

实现了与商业模型相媲美的性能，促进了研究、教育和创意原型开发
统一框架简化了模型部署，避免了为每个条件或任务训练单独模型的需求
支持扩展到训练数据中未包含的新语义条件，具备高度通用性和实用性

4️⃣ 术语表

Video-As-Prompt (VAP)：一种新的语义控制视频生成范式，将参考视频作为直接语义提示来引导生成，实现统一的语义控制视频生成方法
Mixture-of-Transformers (MoT)：混合专家变换器架构，即插即用的专家架构，用于增强冻结的视频扩散变换器，实现上下文控制
语义控制视频生成：处理缺乏像素级对应条件的视频生成方法，包括概念、风格、运动、相机等条件
RoPE：旋转位置嵌入，一种位置编码方法，在VAP中引入时间偏置以改进语义对齐
VAP-Data：专门为语义控制视频生成构建的数据集，包含超过10万个配对样本，覆盖概念、风格、运动、相机等语义条件
VACE：结构控制的视频生成方法，基于像素级映射假设，在语义控制任务中表现不佳

📄 打开原文 PDF