arXiv ID:
2601.18026
arXiv 提交日期: 2026-01-25
CommonLID:重新评估网络数据上最先进语言识别模型的性能 / CommonLID: Re-evaluating State-of-the-Art Language Identification Performance on Web Data
1️⃣ 一句话总结
这篇论文提出了一个名为CommonLID的社区共建、人工标注的基准测试集,涵盖109种语言,用于评估网络数据上的语言识别模型,并发现现有评估方法普遍高估了模型在真实网络环境下的准确率。