arXiv ID:
2604.15086
arXiv 提交日期: 2026-04-16
ControlFoley:一种具有跨模态冲突处理能力的统一可控视频转音频生成方法 / ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling
1️⃣ 一句话总结
这篇论文提出了一个名为ControlFoley的先进系统,它能够根据视频内容、文字描述或参考音频片段,精确且可控地生成高质量、同步的音频,并有效解决了不同输入信息之间可能存在的冲突问题。