2510.04849 – Summary

📄 论文总结

PsiloQA：大规模多语言跨粒度幻觉标注数据集 / PsiloQA: A Large-Scale Multilingual Cross-Granularity Hallucination Annotation Dataset

本文提出了PsiloQA，一个通过自动化流程构建的大规模多语言跨粒度幻觉检测数据集，支持14种语言的细粒度标注，并在跨语言泛化和成本效益方面显著优于现有基准。

创新点：提出了一种自动生成多语言细粒度幻觉标注数据的方法，包括从维基百科生成问答对、在零上下文设置下从多样化LLMs引出可能产生幻觉的答案，以及通过对比黄金答案和检索上下文使用GPT-4o自动标注跨粒度不一致性
区别/改进：解决了现有方法依赖人工标注、计算开销大和多语言环境下标注困难的问题，相比序列级和仅限英语的基准提供了细粒度、多语言的监督
意义：为幻觉检测研究提供了大规模、高质量的多语言数据集，支持更精确的跨粒度幻觉检测

PsiloQA：大规模多语言数据集，标注了14种语言的跨粒度幻觉，通过可扩展且成本效益高的流程构建，利用LLM在零上下文设置下产生的真实幻觉，并采用GPT-4o进行自动span级标注
跨粒度幻觉检测：精确识别生成文本中事实不一致的文本跨度的任务
span级标注：在文本中精确标注幻觉发生的具体单词片段，使用[HAL]标签标记，鼓励精确标注而非过度泛化
FActScore：专注于维基百科参考文献中细粒度幻觉检测的数据集，利用外部知识和事实级标注评估幻觉检测技术
RAGTruth：针对检索增强生成任务的大规模基准，包含约18,000个人工标注示例，提供词级幻觉标注
IoU：交并比，用于评估span级幻觉检测的指标
AP：平均精度，提供与阈值无关的character-level评估，计算精确率-召回率曲线下面积
mmBERT-base：现代多语言编码器，基于ModernBERT扩展，支持多种语言，具有30.7亿参数，在本研究中作为强基线模型，在跨语言幻觉检测任务中表现出色
Mu-SHROOM：多语言基准数据集，包含14种语言，用于评估幻觉检测方法的跨语言迁移能力
FAVA：通过注入受控幻觉类型构建的数据集，与PsiloQA的自然幻觉形成对比