arXiv ID:
2602.21497
arXiv 提交日期: 2026-02-25
看见它,说出它,搞定它:一种用于大型视觉语言模型视觉基础多模态推理的免训练迭代框架 / See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs
1️⃣ 一句话总结
这篇论文提出了一种无需额外训练、即插即用的轻量级方法,通过让大型视觉语言模型在推理的每一步都严格依据图像证据来生成回答,有效解决了多模态推理中视觉幻觉传播导致答案错误的问题,显著提升了多个基准测试的准确率。