arXiv ID:
2603.28737
arXiv 提交日期: 2026-03-30
ParaSpeechCLAP:一种用于丰富风格化语言-音频预训练的双编码器语音-文本模型 / ParaSpeechCLAP: A Dual-Encoder Speech-Text Model for Rich Stylistic Language-Audio Pretraining
1️⃣ 一句话总结
这篇论文提出了一种名为ParaSpeechCLAP的新模型,它能够将语音和描述语音风格的文字(如音调、情绪等)映射到同一个语义空间,从而在语音风格检索、分类和提升语音合成质量等多个任务上表现出色。