arXiv ID:
2606.19325
arXiv 提交日期: 2026-06-17
基于野外先验的参考驱动多说话人音频场景生成 / Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors
1️⃣ 一句话总结
本文提出了一种名为ScenA的新方法,利用一个在自然环境中预训练的音频基础模型,只需输入多个说话人的参考声音和一段描述整个对话场景的自然语言,就能直接生成包含背景噪音、混响、重叠对话和情感声音的逼真多说话人音频场景,并通过一种高噪声偏置的训练策略解决了模型可能绕过文本指令而仅依赖声音相似性的‘参考捷径’问题。