arXiv ID:
2604.25384
arXiv 提交日期: 2026-04-28
维基数据到训练语料库:以南斯拉夫语为例 / Wiki Dumps to Training Corpora: South Slavic Case
1️⃣ 一句话总结
本文提出了一种将维基媒体平台(如维基百科、维基文库等)的原始数据转化为高质量文本语料库的方法,专注于七种南斯拉夫语言,通过提取并清洗文本,再利用n-gram技术识别并剔除重复、低质量的文章,最终生成适合训练语言模型或进行跨语言研究的可靠数据集。