arXiv ID:
2602.20980
arXiv 提交日期: 2026-02-24
CrystaL:多模态大语言模型中视觉潜在特征的自发涌现 / CrystaL: Spontaneous Emergence of Visual Latents in MLLMs
1️⃣ 一句话总结
这篇论文提出了一个名为CrystaL的单阶段框架,它通过并行处理完整图像和受损图像并显式对齐其内部注意力与预测,使得多模态大模型能够在无需额外标注的情况下,自发地在推理过程中形成并保留与任务高度相关的关键视觉语义信息,从而显著提升了模型在细粒度视觉理解任务上的性能。