arXiv ID:
2601.04469
arXiv 提交日期: 2026-01-08
SampoNLP:用于子词分词器形态学分析的自指工具包 / SampoNLP: A Self-Referential Toolkit for Morphological Analysis of Subword Tokenizers
1️⃣ 一句话总结
这篇论文提出了一个名为SampoNLP的工具包,它能自动为芬兰语、匈牙利语等形态复杂的语言创建高质量的形态学词典,并利用这些词典首次系统评估了不同词汇量下BPE分词器的性能,为这些语言找到了最优的词汇量大小,揭示了标准BPE方法在处理高度黏着语时的局限性。