arXiv ID:
2512.24165
arXiv 提交日期: 2025-12-30
DiffThinker:迈向基于扩散模型的生成式多模态推理 / DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
1️⃣ 一句话总结
这篇论文提出了一种名为DiffThinker的新方法,它将多模态推理任务直接当作生成图像的过程来处理,相比现有主流模型,在需要视觉逻辑和空间精度的复杂任务上表现更出色,效率更高且可控性更强。