MagicQuillV2:基于分层视觉提示的精确交互式图像编辑 / MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues
1️⃣ 一句话总结
这篇论文提出了一个名为MagicQuillV2的新系统,它通过将图像编辑意图分解为内容、位置、结构和颜色等多个可独立控制的分层视觉提示,从而让用户能像使用传统图形软件一样,对AI生成过程进行更直观和精细的控制。
请先 登录 后再提交论文
MagicQuillV2:基于分层视觉提示的精确交互式图像编辑 / MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues
这篇论文提出了一个名为MagicQuillV2的新系统,它通过将图像编辑意图分解为内容、位置、结构和颜色等多个可独立控制的分层视觉提示,从而让用户能像使用传统图形软件一样,对AI生成过程进行更直观和精细的控制。
MultiBanana:一个用于多参考文本到图像生成的挑战性基准 / MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation
这篇论文提出了一个名为MultiBanana的新基准,它系统地评估了AI模型根据多张参考图片生成新图像的能力,并揭示了现有模型在应对参考图片数量、风格、尺度等复杂差异时的优势和不足。
UnicEdit-10M:通过统一验证打破规模与质量壁垒,赋能推理增强编辑的数据集与基准 / UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
这篇论文提出了一个名为UnicEdit-10M的大规模高质量图像编辑数据集,以及一个能精细评估模型在空间和知识推理方面能力的综合基准UnicBench,旨在解决开源模型因缺乏优质数据而落后于闭源模型的问题。
WiseEdit:评估认知与创意驱动的图像编辑能力的基准 / WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing
这篇论文提出了一个名为WiseEdit的新基准测试,它通过模拟人类认知创作过程来全面评估图像编辑模型在知识推理和创意生成方面的能力,揭示了当前先进模型的局限性。
大规模视觉桥接变换器 / Vision Bridge Transformer at Scale
这篇论文提出了一种名为ViBT的大规模视觉桥接变换器模型,它通过直接建模输入与输出之间的转换路径,而非从噪声生成数据,从而高效地实现了图像和视频的编辑与翻译任务,并在高达200亿参数的规模上验证了其有效性。
基于流映射的扩散模型测试时缩放 / Test-time scaling of diffusions with flow maps
这篇论文提出了一种名为FMTT的新方法,通过直接利用流映射而非奖励梯度,在扩散模型生成过程中更有效地引导样本向用户指定的奖励方向优化,从而实现了比现有方法更好的图像编辑和控制效果。
REASONEDIT:迈向推理增强的图像编辑模型 / REASONEDIT: Towards Reasoning-Enhanced Image Editing Models
这篇论文提出了一种名为ReasonEdit的新框架,通过解锁大型多模态语言模型的推理能力,让AI在编辑图片时能像人一样先思考指令、再检查结果并自动修正错误,从而显著提升了图像编辑的准确性和效果。
OmniAlpha:统一多任务RGBA图像生成与编辑框架 / OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation
OmniAlpha是首个基于序列到序列扩散变换器的统一多任务RGBA图像生成与编辑框架,通过创新的MSRoPE-BiL架构和AlphaLayers数据集,在21个任务上联合训练,实现了超越专用模型的性能。
VQ-VA World框架:面向视觉问答-视觉回答任务的数据中心化解决方案 / VQ-VA World: Towards High-Quality Visual Question-Visual Answering
本文提出了VQ-VA World框架,通过智能数据构建管道收集180万高质量图像-文本样本,并发布IntelligentBench人工策划基准,显著提升了开源模型在视觉问答-视觉回答任务上的性能,缩小了与专有模型的差距。
MIRA:用于图像编辑的多模态迭代推理智能体 / MIRA: Multimodal Iterative Reasoning Agent for Image Editing
本文提出了一种名为MIRA的轻量级多模态推理智能体,它通过模拟人类多轮交互过程,逐步分析和执行图像编辑指令,显著提升了复杂指令下图像编辑的准确性和质量。