arXiv ID:
2602.07993
arXiv 提交日期: 2026-02-08
MCIE:基于多模态大语言模型、具备空间引导能力的复杂指令图像编辑方法 / MCIE: Multimodal LLM-Driven Complex Instruction Image Editing with Spatial Guidance
1️⃣ 一句话总结
这篇论文提出了一种名为MCIE-E1的新方法,它利用多模态大语言模型来理解和执行复杂的图像编辑指令,通过两个关键模块确保编辑结果既准确遵循指令,又能保持图像背景的连贯性,并在新建立的评测标准上大幅超越了现有技术。