arXiv ID:
2602.15753
arXiv 提交日期: 2026-02-17
资源匮乏语言的研究困境:利用大语言模型为历史亚美尼亚语、格鲁吉亚语、希腊语和叙利亚语进行词形还原与词性标注 / Under-resourced studies of under-resourced languages: lemmatization and POS-tagging with LLM annotators for historical Armenian, Georgian, Greek and Syriac
1️⃣ 一句话总结
这篇论文发现,像GPT-4这样的大语言模型,即使不经过专门训练,也能在数据稀缺的情况下,有效地为几种古老且形态复杂的语言(如古希腊语、古典亚美尼亚语)自动完成词性标注和词形还原任务,为这些语言的数字化研究提供了新工具。