arXiv ID:
2605.26683
arXiv 提交日期: 2026-05-26
语言模型跨语言泛化能力的体外研究 / An In-Vitro Study on Cross-Lingual Generalization in Language Models
1️⃣ 一句话总结
本研究通过构建两种仅有表面差异的人工语言,独立控制词汇距离、少数语言比例等变量,发现语言模型跨语言迁移的关键并非词汇相似度或分词器平衡,而在于分词能否保留可复用的跨语言子结构,并且较小的词汇表通过保持词语可分解为共享片段来提升迁移效果。