arXiv ID:
2603.23118
arXiv 提交日期: 2026-03-24
SMSP:一种用于多模态大语言模型感知视觉错觉的多尺度感知即插即用策略 / SMSP: A Plug-and-Play Strategy of Multi-Scale Perception for MLLMs to Perceive Visual Illusions
1️⃣ 一句话总结
本文发现多模态大语言模型容易受视觉错觉图像中的高频背景干扰而忽略隐藏内容,并提出了一种即插即用的多尺度感知策略来抑制干扰、提升模型感知能力,使其更接近人类视觉。