← 返回列表

🤖 系统

📄 Abstract - HuMo: A Unified Framework for Human-Centric Video Generation with Multi-modal Control

⏳ 正在获取摘要...

📄 论文总结

HuMo：统一多模态控制的人类中心视频生成框架

HuMo: A Unified Framework for Human-Centric Video Generation with Multi-modal Control

1️⃣ 一句话总结

HuMo是一个支持文本、图像和音频多模态协同控制的人类中心视频生成框架，通过高质量配对数据集构建、渐进式多模态训练范式和时间自适应无分类器引导策略，解决了现有方法在数据稀缺和多模态协作控制方面的挑战。

2️⃣ 论文创新点

1. 高质量配对数据集构建

创新点是什么：构建了包含多样化且配对的文本、参考图像和音频的高质量数据集
与已有方法的区别/改进：解决了训练数据稀缺问题
为什么有意义：为多模态训练提供充分的数据支持

2. 渐进式多模态训练范式

创新点是什么：采用两阶段训练方法，先处理主体保持任务，再渐进加入音视频同步子任务
与已有方法的区别/改进：有效协调异构模态的协作
为什么有意义：实现多模态输入的联合学习

3. 最小侵入式图像注入策略

创新点是什么：在主体保持任务中采用最小侵入式图像注入，保持基础模型的提示跟随和视觉生成能力
与已有方法的区别/改进：避免破坏模型原有能力
为什么有意义：平衡主体保持与模型性能

4. 焦点预测策略

创新点是什么：通过隐式引导模型将音频与面部区域关联，增强音视频同步效果
与已有方法的区别/改进：超越常用的音频交叉注意力层
为什么有意义：提升音频与视觉内容的关联准确性

5. 时间自适应无分类器引导策略

创新点是什么：在推理时动态调整去噪步骤中的引导权重，实现灵活细粒度的多模态控制
与已有方法的区别/改进：提供更精细的控制机制
为什么有意义：增强生成视频的质量和可控性

3️⃣ 主要结果与价值

实验结果亮点

HuMo-17B模型在多项指标上表现最佳，特别是在视频质量和文本-视频对齐方面
在音视频同步任务中实现SOTA性能，Sync-C和Sync-D指标显著提升
支持文本-图像协同编辑，在保持角色身份一致的同时改变服装、配饰和妆容

实际应用价值

支持文本-音频(TA)和文本-图像-音频(TIA)两种生成模式
即使某些模态缺失也能生成连贯结果，支持多种条件组合
为多模态视频生成任务提供了标准化的评估框架

4️⃣ 术语表

HCVG：人类中心视频生成，指从多模态输入合成人类视频的方法
HuMo：提出的统一HCVG框架，支持文本、图像和音频的协同多模态条件控制
CFG：无分类器引导，一种在条件生成中增强条件控制的技术
DiT：扩散变换器，用于视频生成的扩散变换器架构
TIA模式：文本-图像-音频多模态生成模式，可通过参考图像控制身份信息
Sync-C：音视频同步一致性指标，用于量化输入音频与面部运动之间的对齐程度
TVA：文本-视频对齐指标，通过VLM-based奖励模型测量输入文本提示与生成视频之间的语义一致性

📄 打开原文 PDF