arXiv ID:
2512.07831
arXiv 提交日期: 2025-12-08
UnityVideo:用于增强世界感知视频生成的统一多模态多任务学习框架 / UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation
1️⃣ 一句话总结
这篇论文提出了一个名为UnityVideo的统一框架,通过联合学习多种视觉模态(如分割掩码、人体骨架等)和训练范式,有效提升了视频生成模型对物理世界的感知能力、生成质量以及泛化性能。