arXiv ID:
2606.30019
arXiv 提交日期: 2026-06-29
OmniDance:基于大规模互联网数据的多模态驱动舞蹈视频生成 / OmniDance: Multimodal Driven Dance Video Generation with Large-scale Internet Data
1️⃣ 一句话总结
本文提出了一种名为OmniDance的新框架,通过构建目前最大的互联网舞蹈视频数据集CIPE-Dance(包含超过400小时的30万段高质量视频),创新性地将音乐作为额外控制信号融入视频生成基础模型,实现了仅靠文本、仅靠音乐或两者结合都能生成高质量舞蹈视频的效果,显著提升了舞蹈视频生成的视觉真实感和动作与音乐的同步性。