← 返回列表

菜单

🤖 系统
📄 Abstract - HuMo: A Unified Framework for Human-Centric Video Generation with Multi-modal Control
正在获取摘要...
详细标签: human-centric video multimodal control audio-visual synchronization diffusion transformer reference image injection 或 搜索:

📄 论文总结

HuMo:统一多模态控制的人类中心视频生成框架

HuMo: A Unified Framework for Human-Centric Video Generation with Multi-modal Control


1️⃣ 一句话总结

HuMo是一个支持文本、图像和音频多模态协同控制的人类中心视频生成框架,通过高质量配对数据集构建、渐进式多模态训练范式和时间自适应无分类器引导策略,解决了现有方法在数据稀缺和多模态协作控制方面的挑战。


2️⃣ 论文创新点

1. 高质量配对数据集构建

2. 渐进式多模态训练范式

3. 最小侵入式图像注入策略

4. 焦点预测策略

5. 时间自适应无分类器引导策略


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF