📄 论文总结
AudioStory:一种端到端叙事音频生成框架
AudioStory: An End-to-End Framework for Narrative Audio Generation
1️⃣ 一句话总结
AudioStory是一个创新的端到端框架,通过结合大语言模型和扩散变换器,解决了长叙事音频生成中的时序连贯性和组合推理难题,并引入了首个叙事音频生成基准数据集AudioStory-10K。
2️⃣ 论文创新点
1. 解耦桥接机制
- 创新点是什么:使用分离的语义标记和残差标记连接LLM和DiT,语义标记捕获高级语义,残差标记补充低级音频细节,通过交叉注意力融合
- 与已有方法的区别/改进:解决了纯文本桥接无法捕获音频低级细节的问题,实现了更全面的条件输入
- 为什么有意义:提升了生成音频的语义准确性和整体质量
2. 端到端训练框架
- 创新点是什么:将指令理解和音频生成统一在一个端到端框架中,无需模块化训练管道
- 与已有方法的区别/改进:简化了训练流程,提高了整体效率
- 为什么有意义:增强了指令跟随能力和音频保真度
3. 交错推理生成机制
- 创新点是什么:模型基于叙事逻辑和时间顺序将输入指令分解为多个事件,分段生成短音频剪辑,最终组合成连贯的长音频
- 与已有方法的区别/改进:相比跳过指令分析或仅分解指令但不生成音频描述的变体,显著提升了一致性、指令遵循度和整体质量
- 为什么有意义:有效解决了多事件和复杂发声目标场景下模型容易忽略发声实体的问题,是实现高质量长叙事音频生成的关键
4. 渐进式训练策略
- 创新点是什么:采用三阶段训练:单音频生成、单音频统一生成与理解、长音频统一生成与理解,逐步引入更复杂的任务和数据
- 与已有方法的区别/改进:避免了端到端训练的困难,通过逐步训练构建理解与生成任务的协同
- 为什么有意义:高效提升了模型在生成和理解任务上的性能,支持长音频处理
3️⃣ 主要结果与价值
实验结果亮点
- 在长音频生成任务上实现了150秒的最大时长突破,显著超越现有模型
- 在单音频理解任务和单音频生成任务上均超越了包括UIO-2、CoDi、NExT-GPT等多个先进基线模型
- 在指令遵循度、一致性、连贯性和音频质量指标上均取得最佳或次佳结果
实际应用价值
- 为高质量长叙事音频生成提供了统一的解决方案
- 建立的AudioStory-10K数据集为领域提供了统一的评估标准
- 证明了所提方法能够胜任由LLM与DiT桥接机制同时处理音频生成和理解双重任务,展示了模型的通用性和强大性能
4️⃣ 术语表
- AudioStory:一个统一的框架,集成大语言模型和文本到音频系统,用于生成结构化的长叙事音频,能够理解输入、推理关键事件并生成多个短音频片段
- AudioStory-10K:一个为叙事音频生成任务建立的基准数据集,包含10,000个标注的音频及其对应的叙事提示,来源包括自然语音和动画声音,用于评估长叙事音频生成
- Narrative Audio Generation:叙事音频生成,旨在根据多模态指令生成长篇、结构化且时序连贯的音频序列,强调时序连贯性和组合推理能力
- semantic tokens:语义标记,编码文本导向的音频语义的令牌
- DiT:扩散变换器,用于基于条件输入生成音频片段的音频生成器
- T_semantic:语义标记,代表音频的高级语义,使用Flan-T5的文本标记作为监督,通过MSE损失训练
- T_residual:残差标记,补充语义标记缺失的低级音频细节,通过流匹配生成模型进行训练
- FAD:Fréchet Audio Distance,一种用于评估生成音频质量的指标,值越低表示生成音频与真实音频的分布越接近,质量越好