arXiv ID:
2601.15621
arXiv 提交日期: 2026-01-22
Qwen3-TTS技术报告 / Qwen3-TTS Technical Report
1️⃣ 一句话总结
这篇论文介绍了Qwen3-TTS系列模型,这是一个支持多语言、可控、鲁棒且能实时流式合成语音的先进系统,它通过创新的双轨架构和两种语音分词器,实现了仅需3秒的语音克隆、基于描述的精细控制以及超低延迟的语音生成。