arXiv ID:
2603.15253
HalDec-Bench:图像描述任务中幻觉检测器的基准测试 / HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning
1️⃣ 一句话总结
这篇论文提出了一个名为HalDec-Bench的新基准测试,用于系统评估视觉语言模型在检测图像描述中‘幻觉’(即描述与图像内容不符的错误)的能力,并发现现有检测器倾向于盲目相信描述开头的句子,同时指出可以利用强大的视觉语言模型作为过滤器来有效提升训练数据的质量。