arXiv ID:
2604.08065
arXiv 提交日期: 2026-04-09
基于预测嵌入的多模态潜在推理 / Multimodal Latent Reasoning via Predictive Embeddings
1️⃣ 一句话总结
这篇论文提出了一种名为Pearl的新方法,它让视觉语言模型在‘潜在空间’里学习使用外部工具(如裁剪、深度估算)的经验,从而在推理时无需实际调用这些工具就能提升图像理解能力,既高效又减少了错误。