arXiv ID:
2605.25846
arXiv 提交日期: 2026-05-25
预训练中多语言能力的模型融合局限性研究 / On the Limits of Model Merging for Multilinguality in Pre-Training
1️⃣ 一句话总结
本文通过实验发现,将针对不同语言单独预训练的模型直接合并,会导致性能急剧下降,原因是不同语言模型的内部表示差异过大,相互干扰;而混合多语言数据训练才是保持多语言能力的可靠方法。