2509.06155 – Summary

📄 论文总结

UniVerse-1：一种统一的开源音视频联合生成模型

UniVerse-1: A Unified Open-Source Audio-Visual Joint Generation Model

UniVerse-1是一个创新的开源模型，通过专家缝合技术和在线标注流程，实现了高质量、时间同步的音视频联合生成，解决了多模态训练中的数据对齐和噪声相关问题。

模型在经过7,600小时的音视频数据微调后，在环境声音生成方面能产生良好协调的视听效果，在语音生成方面具有强对齐性
在Verse-Bench基准测试中，UniVerse-1在身份保持(ID: 0.89)和音高相关性(PC: 2.49)方面表现优异，尤其在同步音视频生成方面展现出核心优势
作为首个开源联合生成框架展现出竞争力(AV-A:0.23, CS:0.16优于SVG)

UniVerse-1：一个统一的、开源的、类似Veo-3的模型，能够同时生成协调的音频和视频。
Verse-Bench：一个包含600个图像-文本提示对的基准测试，用于全面评估联合音频-视频生成模型。
Stitching of experts：一种深度融合预训练单模态专家模型的方法，在Transformer块级别实现双向跨模态交互的框架。
DiT：Diffusion Transformer，一种基于Transformer架构的扩散模型，用于生成任务如视频和音频。
Conditional Flow Matching：一种训练生成模型的方法，通过预测速度场来传输样本从噪声分布到数据分布，使用条件信息(如文本)进行控制。
Online Data Annotation Pipeline：实时处理视频并生成精确对齐的数据-标注对的系统，解决传统离线标注的同步问题。
Independent Noise Sampling Strategy：一种为多模态扩散模型中的每个模态使用独立种子PRNG实例的噪声生成方法，旨在打破模态间噪声的确定性关联。
Audio-Video Alignment (AV-A)：通过Synchformer计算，用于量化生成音频和视频流之间时间同步性的指标。
CLAP score (CS)：对比语言-音频预训练分数，衡量音频与文本描述的一致性。