arXiv ID:
2511.21395
Monet:超越图像和语言的潜在视觉空间推理 / Monet: Reasoning in Latent Visual Space Beyond Images and Language
1️⃣ 一句话总结
这篇论文提出了一个名为Monet的训练框架,通过让多模态大语言模型直接在潜在视觉空间中生成连续的视觉思维嵌入来进行推理,并针对训练挑战设计了专门的优化方法,显著提升了模型在真实世界感知和抽象视觉推理任务上的性能。