arXiv ID:
2602.15183
arXiv 提交日期: 2026-02-16
视觉助力泛化:视觉数据如何纠正绑定捷径 / Seeing to Generalize: How Visual Data Corrects Binding Shortcuts
1️⃣ 一句话总结
这篇论文发现,给大语言模型加入视觉训练后,不仅能处理图像,还能提升其在纯文本任务(尤其是长文本信息检索)上的泛化能力,因为视觉训练打破了模型依赖位置捷径的坏习惯,迫使它学会更稳健的符号绑定机制。