arXiv ID:
2601.21612
arXiv 提交日期: 2026-01-29
用于音频理解的表示正则化卷积音频变换器 / Representation-Regularized Convolutional Audio Transformer for Audio Understanding
1️⃣ 一句话总结
这篇论文提出了一种名为CAT的新模型,它通过整合多分辨率信息来捕捉音频的层次特征,并利用一个创新的表示正则化目标来借用高质量的外部知识,从而在显著提升音频理解性能的同时,将训练收敛速度加快了五倍。