arXiv ID:
2605.05611
arXiv 提交日期: 2026-05-07
X-Voice:让每个人都能通过零样本跨语言语音克隆说30种语言 / X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning
1️⃣ 一句话总结
X-Voice是一个仅有4亿参数的多语言语音克隆模型,通过两阶段训练和国际音标统一表示,无需任何文本转录即可模仿任意说话者的声音,并让该声音说30种不同语言,其性能与数十亿参数的大模型相当。