arXiv ID:
2606.15782
通过检索增强的可靠性感知推理缓解多模态系统中的视觉幻觉 / Mitigating Visual Hallucinations in Multimodal Systems through Retrieval-Augmented Reliability-Aware Inference
1️⃣ 一句话总结
本文提出了一种新的框架,通过在外部图像数据库中检索相似视觉证据,并结合多个可靠性指标(如相似度、类别一致性、不确定性)来评估预测的可信度,从而在视觉信息模糊或矛盾时,让多模态AI系统选择“谨慎回答”或“拒绝回答”,而不是盲目给出错误答案;实验表明,该方法在不重新训练模型的情况下,将错误答案率从14.16%降至11.12%,提升了系统的可信度。