arXiv ID:
2604.26514
arXiv 提交日期: 2026-04-29
面向编码器主导型语音识别模型的文本利用方法 / Text-Utilization for Encoder-dominated Speech Recognition Models
1️⃣ 一句话总结
本文研究如何在以编码器为核心的语音识别模型中高效利用纯文本数据,通过模态匹配和动态降采样等技术,用更简单的配置(如随机时长模型)实现比复杂方法更好的识别效果,并证明了增大编码器、缩小解码器也能达到甚至超越传统大解码器架构的性能。