← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: audio
详细标签: speech synthesis diffusion models multi-speaker token-level diffusion voice generation 或 搜索:

📄 论文总结

VIBE VOICE:基于下一代扩散框架的长文本多说话人语音合成模型

VIBE VOICE: A Next-Generation Diffusion Framework for Long-Form Multi-Speaker Speech Synthesis


1️⃣ 一句话总结

VIBE VOICE是一种创新的语音合成模型,通过结合连续语音分词器、双分词器设计和基于LLM的令牌级扩散机制,实现了高质量、高效率的长文本多说话人语音生成,并在多项评测中达到最先进性能。


2️⃣ 论文创新点

1. 连续语音分词器

2. 双分词器设计

3. 令牌级扩散机制

4. 多说话人输入表示


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF