📄 论文总结
AdaViewPlanner:基于预训练文本到视频模型的4D场景视点规划方法 / AdaViewPlanner: 4D Scene Viewpoint Planning Using Pre-trained Text-to-Video Models
1️⃣ 一句话总结
提出了一种新颖的两阶段方法,利用预训练文本到视频模型的先验知识,仅基于归一化的4D人体运动序列自动生成专业且合理的摄像机轨迹和视频内容。
2️⃣ 论文创新点
1. 两阶段视点规划范式
- 创新点:第一阶段通过自适应学习分支将4D场景表示注入T2V模型生成包含视点的视频;第二阶段引入相机外参扩散分支,将视点提取建模为混合条件引导的相机外参去噪过程
- 区别/改进:相比现有专业模型,能更好地泛化到开放世界场景并支持文本指令控制
- 意义:证明了视频生成模型在4D交互中的潜力,为自动电影摄影生成提供了新思路
2. 自适应学习分支
- 创新点:通过自适应学习分支将4D场景表示注入预训练T2V模型
- 区别/改进:解决了4D场景与生成视频之间的模糊投影关系问题
- 意义:使模型能够理解4D输入并合成具有合理相机运动的视频内容
3. 混合条件引导的相机外参去噪
- 创新点:将视点提取建模为混合条件引导的相机外参去噪过程
- 区别/改进:引入相机外参扩散分支,以生成视频和4D场景作为输入
- 意义:实现了从视频生成到相机参数预测的端到端转换
4. 空间运动注意力机制
- 创新点:在DiT框架内集成空间运动注意力机制,将视频令牌和人体运动令牌沿空间维度连接后输入自注意力块,利用帧间对应关系
- 区别/改进:通过结合运动条件,增强了视频生成过程中对运动一致性的建模
- 意义:提升了生成视频与输入运动序列的一致性,是有效注入运动条件的关键机制
5. 引导学习方案
- 创新点:引入课程学习策略,以概率p为模型提供显式相机信息,帮助模型先学习在给定相机视图下根据人体运动渲染视频,再处理自主相机设计
- 区别/改进:通过概率性提供相机信息降低了训练复杂度,解决了仅从运动生成具有电影吸引力视频的挑战
- 意义:提高了训练效率和模型性能,使模型能更好地理解3D人体动态和电影摄影原则
3️⃣ 主要结果与价值
结果亮点
- 在多个指标上优于基线方法,特别是在通用领域表现更佳
- 能够生成多样化、符合指令且以人为中心的相机轨迹,优于E.T.和改进的DanceCam*方法
- 消融研究证明了运动条件、引导视图和3D RoPE等设计选择的有效性
实际价值
- 简化了输入要求,增强了模型在生成视频时的自主性和灵活性
- 为使用视频生成模型作为4D交互的'世界模型'提供了有前景的概念验证
- 提高了相机姿态估计的准确性和鲁棒性,提供更稳定和一致的相机轨迹
4️⃣ 术语表
- AdaViewPlanner:一种适配视频扩散模型用于4D场景视点规划的方法,采用两阶段相机轨迹生成方法,能够设计多样化、符合指令且以人为中心的相机运动
- 4D场景:动态3D内容,包含时间维度的场景表示
- SMPL-X:用于表示人体运动序列的模型,提供3D关节位置
- MMDiT:多模态扩散变换器框架,用于结合视频、相机和人体运动分支
- DiT:Diffusion Transformer的缩写,是用于视频生成的框架,在本工作中通过空间运动注意力机制注入运动条件
- flow-matching:训练模型预测将噪声相机参数传输到干净参数的向量场的目标函数
- MLLM-based Evaluation:基于多模态大语言模型的评估方法,用于分析轨迹可视化并评估文本-相机一致性
- MPJPE:平均每关节位置误差,用于评估生成视频中人体运动控制的准确性
- Reproject Acc:重投影准确度,通过重投影4D人体姿态并与原始视频中人体区域掩码比较来计算
- T2V模型:文本到视频生成模型,能够生成逼真的动态内容和专业的相机运动
- 相机扩散分支:专门用于视点提取的组件,采用混合条件引导的去噪过程
- 3D RoPE:3D旋转位置编码,在模型中集成以提升对人体姿态的感知和建模能力