arXiv ID:
2606.22177
arXiv 提交日期: 2026-06-20
自监督语音模型如何编码儿童语音中的年龄与性别信息?——跨多种架构的逐层分析 / How Well Do Self-Supervised Speech Models Encode Age and Gender in Children's Speech? A Layer-Wise Analysis Across Multiple Architectures
1️⃣ 一句话总结
本文系统分析了四种主流自监督语音模型(Wav2Vec2、HuBERT、Data2Vec、WavLM)在不同网络层中编码儿童语音的年龄和性别信息的程度,发现中层特征表现最佳,且HuBERT在年龄识别上整体最优,而仅需1-3秒的语音片段即可实现可靠的分类。