arXiv ID:
2604.24396
arXiv 提交日期: 2026-04-27
全局上下文还是局部细节?面向幻觉缓解的自适应视觉定位 / Global Context or Local Detail? Adaptive Visual Grounding for Hallucination Mitigation
1️⃣ 一句话总结
本文提出了一种无需训练的推理框架PND,通过对比增强视觉证据和抑制语言先验的两个解码路径,有效纠正了视觉语言模型因过度依赖语言习惯而产生的物体幻觉,显著提升了模型输出的视觉准确性。