arXiv ID:
2601.04151
arXiv 提交日期: 2026-01-07
Klear:统一的多任务音视频联合生成 / Klear: Unified Multi-Task Audio-Video Joint Generation
1️⃣ 一句话总结
这篇论文提出了一个名为Klear的统一模型,通过创新的架构设计、训练策略和高质量数据集构建,解决了音视频生成中常见的不同步、口型不匹配等问题,能够高质量地生成同步且符合指令的音视频内容。