arXiv ID:
2605.21227
arXiv 提交日期: 2026-05-20
大语言模型是否了解卢森堡语的借词?——探针法评测低资源多语言模型中的词汇新词现象 / Do LLMs Know What Luxembourgish Borrows? Probing Lexical Neology in Low-Resource Multilingual Models
1️⃣ 一句话总结
本文通过构建一个基于卢森堡语新闻语料的借词基准数据集LexNeo-Bench,测试了多种多语言大模型识别外来词的能力,发现直接提问时模型表现较差,而引入包含源语言、构词模式等信息的语言知识图谱后,借词分类准确率大幅提升至71-81%,但识别创新性新词仍然困难。