arXiv ID:
2601.10129
LaViT:对齐潜在视觉思维以实现多模态推理 / LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为LaViT的新框架,通过让学生模型在生成文本前先学习并复现教师模型的视觉关注轨迹和语义理解,有效解决了多模态推理中模型仅依赖语言先验而忽视真实视觉感知的问题,从而显著提升了模型的视觉基础能力,让小模型也能在复杂推理任务上取得优异表现。