arXiv ID:
2602.17623
arXiv 提交日期: 2026-02-19
揭示波斯语语言模型中事实与概念的差距 / Unmasking the Factual-Conceptual Gap in Persian Language Models
1️⃣ 一句话总结
这篇论文通过引入一个名为DivanBench的新评测基准,专门测试波斯语大语言模型对迷信和习俗等复杂社会规范的理解,发现这些模型虽然能记住文化事实,却难以在实际情境中进行推理,暴露出严重的‘附和偏见’和事实应用能力不足的问题。