← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
详细标签: instruction-guided image editing visual autoregressive modeling scale-aligned reference multimodal conditional generation efficient inference 或 搜索:

📄 论文总结


1️⃣ 一句话总结

本文提出了VAREdit,一个基于视觉自回归(VAR)建模的创新框架,它将指令引导的图像编辑任务重新定义为“下一尺度预测”问题,并通过其核心的尺度对齐参考(SAR)模块有效解决了源图像与目标图像间的尺度信息不匹配难题,在显著提升编辑质量和效率的同时,展现了卓越的可扩展性。


2️⃣ 论文创新点

创新点一:基于“下一尺度预测”的编辑范式重构

创新点二:尺度对齐参考(SAR)模块

创新点三:综合评估指标GPT-Balance


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表


📄 打开原文 PDF