📄 论文总结
基于交互姿态先验的人类交互动画生成框架 / Ponimator: A Framework for Human Interaction Animation via Interaction Pose Priors
1️⃣ 一句话总结
Ponimator是一个基于近距交互姿态先验的人类交互动画生成框架,通过双扩散模型架构将交互姿态作为动态建模的锚点,实现了从高质量动作捕捉数据到开放世界场景的交互知识迁移。
2️⃣ 论文创新点
1. 交互姿态动态先验学习
- 创新点:利用近距交互姿态作为动态建模的锚点,从运动捕捉数据中学习交互姿态的动态先验
- 区别/改进:相比现有工作仅重建静态姿态,Ponimator能生成完整的交互动态
- 意义:实现了从高质量动作捕捉数据到开放世界场景的交互知识迁移
2. 双扩散模型架构
- 创新点:结合姿态动画器和姿态生成器两个条件扩散模型,分别负责从交互姿态生成动态序列和从单人姿态、文本或两者合成交互姿态
- 区别/改进:解决了交互姿态不可用时的生成问题
- 意义:支持多样化的输入类型和动画任务
3. 通用交互姿态先验
- 创新点:学习的交互姿态先验具有通用性,能跨数据集泛化并支持多人交互
- 区别/改进:无需修改或重新训练即可处理域外数据和随机组合的多人姿态
- 意义:提高了模型的适用性和扩展性
4. 条件掩码机制
- 创新点:使用两个独立的伯努利分布掩码来编码文本和姿态条件的出现概率
- 区别/改进:通过修改模型输入实现多条件输入的灵活组合
- 意义:使模型能够适应多种条件组合,支持不同的应用场景
3️⃣ 主要结果与价值
结果亮点
- 在Inter-X和Dual-Human数据集上,FID、多样性、多模态性和接触率等指标优于基线方法
- 通过锚定交互姿态的方法在运动真实性和物理接触方面优于现有方法
- 在领域外数据集和开放世界图像上展示了良好的泛化能力
实际价值
- 支持基于图像的交互动画、反应动画和文本到交互合成等任务
- 能够从静态图像或单张图像中提取并生成交互姿态和运动
- 为人类交互视频合成提供了更可靠的中介输出,提升了生成视频的质量和真实感
4️⃣ 术语表
- Ponimator:基于交互姿态的人类交互动画生成框架,包含姿态生成器和动画器,使用条件扩散模型进行交互姿态动画和生成
- 交互姿态:两个近距接触个体的姿态,使用SMPLX参数化身体模型表示,包含关节旋转、全局方向和位置等参数,允许观察者直观推断时间上下文
- 交互运动:围绕交互时刻的短姿态序列,包含交互姿态及其附近的过去和未来姿态,以及两个个体的形状参数
- DiT:采用的扩散模型架构,基于堆叠的Transformer块,交替进行空间注意力和时间注意力
- SMPLX:一种人体模型,其关节前向运动学函数被用于计算交互姿态的关节位置
- SMPL:Skinned Multi-Person Linear model,参数化人体模型,用于表示人体形状和姿态
- CLIP:Contrastive Language-Image Pre-training,用于文本条件编码的预训练模型
- FID:Fréchet Inception Distance,用于评估生成运动与真实运动特征分布相似度的指标,值越低表示越真实
- Contact Frame Ratio:接触帧比例,评估两人生成运动中有接触的帧所占百分比
- pose-guided video diffusion:基于姿态引导的视频扩散模型,用于合成人类视频
- Diffusion Models:去噪扩散概率模型,一种生成模型方法
- Adaptive Instance Normalization:自适应实例归一化,用于实时风格迁移的技术