← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: systems
详细标签: video generation multi-human interaction audio-driven animation pose estimation virtual social agents 或 搜索:

📄 论文总结


1️⃣ 一句话总结

这篇论文提出了首个多人物交互式对话视频生成任务,并构建了大规模数据集MIT(Multi-human Interactive Talking Dataset)和基线模型CovOG,通过整合多人姿态编码(MPE)和交互式音频驱动(IAD),解决了传统单人物生成方法在动态角色切换、全身交互和自然对话建模上的局限性。


2️⃣ 论文创新点

1. 首创多人物交互式对话视频生成任务

2. MIT数据集:自动化构建与多模态标注

3. CovOG模型:动态交互建模

4. 侧脸与交互优化


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表


(总结基于9个chunk-summary的整合与去重,忽略参考文献细节,突出核心贡献。)

📄 打开原文 PDF