arXiv ID:
2605.20177
arXiv 提交日期: 2026-05-19
从看到思考:解耦感知与推理提升视觉语言模型的后训练效果 / From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models
1️⃣ 一句话总结
这篇论文发现,当前视觉语言模型在视觉任务上的主要瓶颈在于视觉感知能力不足,而非推理能力本身,因此提出将训练过程分解为视觉感知、视觉推理和文本推理三个独立阶段,并证明这种分阶段训练方法能显著提高模型准确率、缩短推理链条,其效果优于传统混合训练和单一难度的课程学习。