arXiv ID:
2601.07812
arXiv 提交日期: 2026-01-12
图像越多,问题越多?对视觉语言模型失败模式的控制性分析 / More Images, More Problems? A Controlled Analysis of VLM Failure Modes
1️⃣ 一句话总结
这篇论文通过构建一个新的多图像评测基准MIMIC,揭示了大型视觉语言模型在处理多张图像时普遍存在信息整合困难等问题,并提出了通过合成训练数据和优化注意力机制两种方法来显著提升其多图像理解能力。