arXiv ID:
2512.11464
arXiv 提交日期: 2025-12-12
利用MetaCanvas探索多模态大语言模型与扩散模型的信息传递 / Exploring MLLM-Diffusion Information Transfer with MetaCanvas
1️⃣ 一句话总结
这篇论文提出了一个名为MetaCanvas的轻量级框架,它能让强大的多模态大语言模型直接在图像和视频的潜在空间中进行推理与规划,从而更精确地控制扩散模型生成内容,有效缩小了多模态理解与生成能力之间的差距。