arXiv ID:
2602.16687
arXiv 提交日期: 2026-02-18
通过交织语义、声学和文本标记来扩展开放离散音频基础模型 / Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens
1️⃣ 一句话总结
这篇论文提出了一种新的音频基础模型SODA,它通过同时学习音频的语义内容、声学细节和文本信息,能够灵活地处理多种音频生成和跨模态任务,并首次揭示了此类模型的扩展规律。