← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: audio
详细标签: speech tokenization diffusion transformer low-bitrate compression text-aware modeling zero-shot tts 或 搜索:

📄 论文总结


1️⃣ 一句话总结

TaDiCodec 提出了一种基于扩散Transformer的端到端语音分词器,通过文本感知和二进制球形量化技术,在极低比特率(0.0875 kbps)和帧率(6.25 Hz)下实现高保真语音重建与生成,显著缩小了重建与生成任务的性能差距,并兼容零样本文本到语音(TTS)任务。


2️⃣ 论文创新点

1. 文本感知扩散Transformer架构

2. 二进制球形量化(BSQ)技术

3. 流匹配解码与提示机制

4. 多任务兼容性设计


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF