arXiv ID:
2602.17655
arXiv 提交日期: 2026-02-19
这是什么语言?问问你的分词器 / What Language is This? Ask Your Tokenizer
1️⃣ 一句话总结
这篇论文提出了一种名为UniLID的简单高效语言识别方法,它基于分词算法,能用极少的数据(如每种语言仅需5个样本)就准确识别资源匮乏的语言和方言,并且能轻松添加到现有的语言处理流程中。