arXiv ID:
2602.01541
arXiv 提交日期: 2026-02-02
迈向多模态大语言模型中的认知超感知 / Toward Cognitive Supersensing in Multimodal Large Language Model
1️⃣ 一句话总结
这篇论文提出了一种名为‘认知超感知’的新训练方法,通过赋予多模态大语言模型类似人类的视觉想象能力,使其能够进行基于视觉的内部推理,从而显著提升其在复杂认知任务(如视觉问答)上的表现。