arXiv ID:
2605.31483
arXiv 提交日期: 2026-05-29
BenHalluEval:面向孟加拉语大语言模型的多任务幻觉评估框架 / BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali
1️⃣ 一句话总结
本文提出了首个专门针对孟加拉语的幻觉评估框架BenHalluEval,通过构建包含12000个幻觉样本的基准测试和双轨校准指标BenHalluScore,系统评估了7种主流大语言模型在四项任务中的幻觉表现,发现单轨评估和仅依赖思维链提示的方法在低资源语言环境下效果不佳。