arXiv ID:
2606.25369
arXiv 提交日期: 2026-06-24
Sarashina2.2-TTS:通过数据扩展与针对性数据合成攻克日语语音生成中的汉字多音问题 / Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese Speech Generation via Data Scaling and Targeted Data Synthesis
1️⃣ 一句话总结
本文提出了一个面向日语的语音合成系统Sarashina2.2-TTS,通过大规模扩展训练数据(约361千小时)并设计针对全部2136个常用汉字的读音增强流程,有效解决了日语中汉字多音歧义问题,同时构建了新的评测基准与指标,在汉字读音准确率、零样本语音合成及跨语言鲁棒性上均达到最优水平。