arXiv ID:
2604.21911
当提示覆盖视觉:大型视觉语言模型中由提示引发的幻觉 / When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs
1️⃣ 一句话总结
本文研究发现,大型视觉语言模型(LVLM)产生幻觉的主要原因并非视觉处理能力不足,而是过度依赖文本指令中的先验知识,并据此提出了新的评估基准HalluScope和基于偏好优化的微调框架HalluVL-DPO,有效减少了这类幻觉,同时保持了模型其他性能。