arXiv ID:
2604.26250
arXiv 提交日期: 2026-04-29
超越捷径:通过定性推理缓解冻结视觉语言模型中的视觉错觉 / Beyond Shortcuts: Mitigating Visual Illusions in Frozen VLMs via Qualitative Reasoning
1️⃣ 一句话总结
本文提出了一种无需训练的数据驱动框架SQI,通过注入公理约束、分解场景和反事实自我验证三个步骤,让冻结的视觉语言模型在遇到光学错觉图片时,能依靠定性推理而非语言捷径,更准确地理解图像,从而在不调整模型参数的前提下显著提升抗错觉能力。