arXiv ID:
2605.26111
arXiv 提交日期: 2026-05-25
从多模态大语言模型中榨取能力用于主题驱动图像生成 / Squeezing Capacity from Multimodal Large Language Models for Subject-driven Generation
1️⃣ 一句话总结
这篇论文提出了一种新方法,通过将多模态大语言模型与扩散模型结合,并设计双层特征聚合模块和多阶段去噪策略,在主题驱动的图像生成中同时提升了指令遵循能力和主体身份保留效果,有效避免了常见的图像复制粘贴痕迹问题。