arXiv ID:
2602.08241
arXiv 提交日期: 2026-02-09
多模态大语言模型真的“看见”了吗?——强化其视觉注意力机制 / Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs
1️⃣ 一句话总结
这篇论文发现当前的多模态大模型在推理时视觉注意力不集中且难以自我修正,导致错误累积,为此提出了一种名为SAYO的新模型,它通过强化学习奖励机制来引导模型更可靠地关注图像关键区域,从而在多种视觉推理任务上取得了更好的表现。