arXiv ID:
2602.01984
arXiv 提交日期: 2026-02-02
通过分隔符令牌缩放增强多图像理解能力 / Enhancing Multi-Image Understanding through Delimiter Token Scaling
1️⃣ 一句话总结
本文提出了一种无需额外训练或推理成本的方法,通过缩放分隔符令牌的隐藏状态,有效阻止了大型视觉语言模型中不同图像间的信息泄露,从而显著提升了模型处理多图像、多文档和多表格任务的能力。