📄 论文总结
PsiloQA:大规模多语言跨粒度幻觉标注数据集 / PsiloQA: A Large-Scale Multilingual Cross-Granularity Hallucination Annotation Dataset
1️⃣ 一句话总结
本文提出了PsiloQA,一个通过自动化流程构建的大规模多语言跨粒度幻觉检测数据集,支持14种语言的细粒度标注,并在跨语言泛化和成本效益方面显著优于现有基准。
2️⃣ 论文创新点
1. 自动化多语言幻觉标注流水线
- 创新点:提出了一种自动生成多语言细粒度幻觉标注数据的方法,包括从维基百科生成问答对、在零上下文设置下从多样化LLMs引出可能产生幻觉的答案,以及通过对比黄金答案和检索上下文使用GPT-4o自动标注跨粒度不一致性
- 区别/改进:解决了现有方法依赖人工标注、计算开销大和多语言环境下标注困难的问题,相比序列级和仅限英语的基准提供了细粒度、多语言的监督
- 意义:为幻觉检测研究提供了大规模、高质量的多语言数据集,支持更精确的跨粒度幻觉检测
2. 跨语言幻觉检测评估
- 创新点:系统评估了多种幻觉检测方法在14种语言中的表现,包括不确定性量化、基于LLM的标注和微调的编码器模型
- 区别/改进:显示编码器模型在跨语言环境中达到最强性能,优于不确定性量化方法
- 意义:推动了可扩展、细粒度多语言幻觉检测的发展
3. 低成本自动标注机制
- 创新点:使用GPT-4o自动标注span级幻觉,成本仅为535美元,远低于人工标注
- 区别/改进:相比RAGTruth的人工标注成本(约3000美元)大幅降低,同时达到与人工标注84.3%的平均精度和71.0%的交并比
- 意义:为大规模幻觉数据集创建提供了经济高效的解决方案
3️⃣ 主要结果与价值
结果亮点
- 在PsiloQA上训练的模型(如mmBERT-base)在跨语言迁移和跨数据集知识迁移方面表现优异,优于仅在单一语言或人工标注数据集上训练的模型
- 微调后的编码器模型性能显著优于预训练基线,其中mmBERT在14种语言中的12种取得了最佳性能
- 多语言训练策略在大多数语言上取得了更好的交并比和平均精度分数,优于单语言独立训练
实际价值
- PsiloQA-en模型在多个基准测试上显著优于RAGTruth QA,且合成生成成本比人工标注低17倍以上
- 为构建具有跨语言泛化能力的幻觉检测模型提供了有效资源,解决了现有模型对低资源语言支持不足的问题
- 证明了使用合成生成数据集进行高质量自动标注的可行性,为大规模、低成本构建高质量数据集提供了范例
4️⃣ 术语表
- PsiloQA:大规模多语言数据集,标注了14种语言的跨粒度幻觉,通过可扩展且成本效益高的流程构建,利用LLM在零上下文设置下产生的真实幻觉,并采用GPT-4o进行自动span级标注
- 跨粒度幻觉检测:精确识别生成文本中事实不一致的文本跨度的任务
- span级标注:在文本中精确标注幻觉发生的具体单词片段,使用[HAL]标签标记,鼓励精确标注而非过度泛化
- FActScore:专注于维基百科参考文献中细粒度幻觉检测的数据集,利用外部知识和事实级标注评估幻觉检测技术
- RAGTruth:针对检索增强生成任务的大规模基准,包含约18,000个人工标注示例,提供词级幻觉标注
- IoU:交并比,用于评估span级幻觉检测的指标
- AP:平均精度,提供与阈值无关的character-level评估,计算精确率-召回率曲线下面积
- mmBERT-base:现代多语言编码器,基于ModernBERT扩展,支持多种语言,具有30.7亿参数,在本研究中作为强基线模型,在跨语言幻觉检测任务中表现出色
- Mu-SHROOM:多语言基准数据集,包含14种语言,用于评估幻觉检测方法的跨语言迁移能力
- FAVA:通过注入受控幻觉类型构建的数据集,与PsiloQA的自然幻觉形成对比