arXiv ID:
2605.30073
arXiv 提交日期: 2026-05-28
面向生成的原生音视频对齐 / Native Audio-Visual Alignment for Generation
1️⃣ 一句话总结
本文提出了一种名为NAVA的音视频联合生成框架,通过先对齐音频与视频的对应关系、再结合外部文本条件引导生成过程的设计,有效解决了现有方法中音视频协同进化不足或语义条件与低级同步耦合的问题,仅用63亿参数即可生成高画质、同步精准、可控制音色的音视频内容。