arXiv ID:
2603.09095
arXiv 提交日期: 2026-03-10
阅读而非思考:理解并弥合多模态大语言模型中文本图像化时的模态鸿沟 / Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs
1️⃣ 一句话总结
这篇论文发现,当文本以图像形式输入时,多模态大语言模型会因字体、分辨率等视觉因素导致“阅读”能力下降,尤其是在数学任务上,而通过一种自蒸馏训练方法,可以让模型基于图像输入恢复出接近纯文本模式的推理能力,从而显著提升性能。