arXiv ID:
2602.05374
arXiv 提交日期: 2026-02-05
大型语言模型在阿拉伯语医疗任务中的跨语言实证评估 / Cross-Lingual Empirical Evaluation of Large Language Models for Arabic Medical Tasks
1️⃣ 一句话总结
这篇论文通过对比实验发现,大型语言模型在处理阿拉伯语医疗问答任务时,其性能显著低于英语,且任务越复杂差距越大,这主要是由于模型对阿拉伯语文本的切分处理不当以及模型自身给出的置信度与答案正确性关联不大所导致的。