arXiv ID:
2602.20981
arXiv 提交日期: 2026-02-24
跨越时间的回响:解锁视频到音频生成模型的长度泛化能力 / Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models
1️⃣ 一句话总结
这项研究提出了一种名为MMHNet的新方法,通过结合分层结构和非因果Mamba技术,成功让视频生成音频的模型在仅用短视频训练后,也能生成长达5分钟以上的高质量音频,解决了模型从短样本到长样本的泛化难题。