arXiv最新AI论文速览速学

🔍

标签: #image editing ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Keep The Essentials: Efficient Reference Conditioned Generation via Token Dropping 06-23

arXiv ID: 2606.23682

arXiv 提交日期: 2026-06-22

computer vision model training systems diffusion model token dropping reference-based generation inference efficiency image editing

保留要点：通过令牌丢弃实现高效的参考条件生成 / Keep The Essentials: Efficient Reference Conditioned Generation via Token Dropping

1️⃣ 一句话总结

本文提出一种名为Sparse Context的方法，通过在推理时丢弃大部分参考图像的冗余令牌（token），并微调模型以适应随机丢失模式，在不降低生成质量的前提下，将多参考图像生成速度提升4倍、单参考生成速度提升2倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.13303

arXiv 提交日期: 2026-06-11

computer vision aigc diffusion models image editing inference method text-to-image edit fidelity

DuET：用于扩散图像编辑的双专家轨迹 / DuET: Dual Expert Trajectories for Diffusion Image Editing

1️⃣ 一句话总结

本文提出了一种无需重新训练的推理方法DuET，通过在编辑过程中暂时放松对源图像的依赖、引入文本到图像的生成阶段，有效提升了扩散模型在复杂场景下的编辑质量和语义一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05778

arXiv 提交日期: 2026-06-04

computer vision machine learning aesthetic assessment relative learning image editing dataset generalization

超越绝对评分：基于编辑差异的相对学习实现通用图像美学评估 / Beyond Absolute Scores: Relative Edit-induced Difference for Generalizable Image Aesthetic Assessment

1️⃣ 一句话总结

本文提出一种名为RED-Aes的新方法，通过利用图像编辑工具模拟人类对比审美过程，让模型学习不同编辑操作如何改变图像美感，而非直接预测评分，从而大幅提升模型在多种场景下的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.01985

arXiv 提交日期: 2026-06-01

machine learning multi-modal reinforcement learning image editing multi-turn editing flow matching exposure bias reward optimization

MT-EditFlow：基于强化学习和流匹配的多轮图像编辑框架 / MT-EditFlow: Reinforcement Learning for Multi-Turn Image Editing with Flow Matching

1️⃣ 一句话总结

本文提出MT-EditFlow框架，利用强化学习和流匹配技术，通过优化多轮编辑中的奖励信号，有效解决单轮编辑模型在多轮交互中因错误累积而性能崩溃的问题，显著提升了图像编辑的连续可靠性和成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.21190

arXiv 提交日期: 2026-05-20

computer vision model training model evaluation image editing diffusion models inference-time control semantic editability structural fidelity

图像编辑中的语义粒度导航 / Semantic Granularity Navigation in Image Editing

1️⃣ 一句话总结

本文提出了一种名为NaviEdit的轻量级方法，在不修改预训练模型的前提下，通过重新分配计算资源、避免过度干扰图像结构，从而在图像编辑中更好地平衡语义修改强度和画面保真度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19511

arXiv 提交日期: 2026-05-19

multi-modal computer vision model training image editing watermark preservation text-guided editing diffusion models information theory

带水印的图片还可以编辑吗？SafeMark：一种保留水印的文本引导图像编辑方法 / Are Watermarked Images Editable? SafeMark for Watermark-Preserving Text-Guided Image Editing

1️⃣ 一句话总结

本文提出SafeMark框架，通过在扩散模型的编辑训练中加入水印解码损失，实现了在文本引导编辑图片时既能保留原有的水印信息（高比特准确率），又能保证高质量语义修改，证明水印完整性和编辑可行性可以兼得。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.15181

arXiv 提交日期: 2026-05-14

computer vision multi-modal agents image editing planning reward learning multi-step visual quality

从规划到像素：学习规划与编排以实现开放式图像编辑 / From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing

1️⃣ 一句话总结

本文提出了一种让AI通过先制定分步计划、再逐步执行工具操作来应对复杂、模糊的长期图像编辑任务（如“让广告更素食友好”）的新方法，并通过视觉语言模型对每一步的结果进行奖励反馈，从而自我改进规划与执行能力，最终生成比单步或固定流程方法更连贯、可靠的编辑效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10730

arXiv 提交日期: 2026-05-11

multi-modal aigc model training image generation image editing multimodal diffusion transformer text rendering human evaluation

Qwen-Image-2.0 技术报告 / Qwen-Image-2.0 Technical Report

1️⃣ 一句话总结

本文介绍了一个名为Qwen-Image-2.0的统一图像生成与编辑基础模型，它通过将语言理解模型与扩散模型结合，在长文本渲染、多语言排版、高分辨率逼真画质和复杂指令遵循等关键任务上，显著超越了前代模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.02417

arXiv 提交日期: 2026-05-04

computer vision aigc image editing flow-based models inversion reconstruction attention injection

DirectEdit：基于流的图像编辑的逐步精确反演方法 / DirectEdit: Step-Level Accurate Inversion for Flow-Based Image Editing

1️⃣ 一句话总结

本文提出了一种无需额外训练的图像编辑方法DirectEdit，通过直接对齐前向路径而非修正反演路径，消除了传统方法中时间步不匹配导致的累积误差，从而在保持高保真度重建的同时实现高效的图像编辑。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24023

arXiv 提交日期: 2026-04-27

computer vision multi-modal benchmark image generation image editing commercial evaluation payment prediction human annotation

ServImage：来自真实世界商业影像服务的图像生成与编辑基准 / ServImage: An Image Generation and Editing Benchmark from Real-world Commercial Imaging Services

1️⃣ 一句话总结

该研究提出了一个名为ServImage的商业图像基准，通过分析超过29万美元的真实付费设计项目数据，建立了一套包含任务、评分和支付预测模型的系统，用于评估AI生成的图像是否具有实际商业价值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.23682

1️⃣ 一句话总结

arXiv ID: 2606.13303

1️⃣ 一句话总结

arXiv ID: 2606.05778

1️⃣ 一句话总结

arXiv ID: 2606.01985

1️⃣ 一句话总结

arXiv ID: 2605.21190

1️⃣ 一句话总结

arXiv ID: 2605.19511

1️⃣ 一句话总结

arXiv ID: 2605.15181

1️⃣ 一句话总结

arXiv ID: 2605.10730

1️⃣ 一句话总结

arXiv ID: 2605.02417

1️⃣ 一句话总结

arXiv ID: 2604.24023

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.23682 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.13303 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05778 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.01985 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.21190 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19511 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.15181 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10730 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.02417 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24023 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.23682

arXiv ID: 2606.13303

arXiv ID: 2606.05778

arXiv ID: 2606.01985

arXiv ID: 2605.21190

arXiv ID: 2605.19511

arXiv ID: 2605.15181

arXiv ID: 2605.10730

arXiv ID: 2605.02417

arXiv ID: 2604.24023