arXiv ID:
2603.07238
arXiv 提交日期: 2026-03-07
扩展自监督语音模型揭示深层语言关系:来自太平洋语群的证据 / Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster
1️⃣ 一句话总结
这篇论文发现,当自监督语音模型训练的语言数量从126种大幅扩展到4017种时,模型能够突破表面相似性,捕捉到更深层的语言谱系关系和长期接触历史,例如在太平洋地区识别出一个包含巴布亚语、大洋洲语和澳大利亚原住民语的宏观语群。