arXiv ID:
2605.27840
arXiv 提交日期: 2026-05-27
LoSATok:面向跨领域音频理解与生成的低维语义-声学标记器 / LoSATok: Low-dimensional Semantic-Acoustic Tokenizer for Cross-Domain Audio Understanding and Generation
1️⃣ 一句话总结
本文提出了一种名为LoSATok的低维音频标记器,通过将高维语义特征压缩至128维并加入时间关系约束和双重语义监督,在保持优秀理解能力的同时显著降低了扩散Transformer生成模型的计算负担,在语音、音乐和通用音频任务上均取得了更高效的生成效果。