arXiv最新AI论文速览速学

🔍

标签: #image generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: RS-Gen: A Multi-Stage Agentic Framework for Reasoning and Search-Augmented Image Generation 06-23

arXiv ID: 2605.20079

arXiv 提交日期: 2026-05-19

machine learning computer vision diffusion models flow-based models guidance image generation manifold

概率守恒流引导 / Probability-Conserving Flow Guidance

1️⃣ 一句话总结

本文提出一种名为AdaMaG的新型图像生成引导方法，通过数学分析将传统引导方式拆解为“发散项”和“分数平行项”，并分别进行动态控制，从而在增强生成质量的同时避免图像失真或脱离真实数据分布，无需额外计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.17733

arXiv 提交日期: 2026-05-18

machine learning generative models rectified flow coupling divergence velocity field image generation

用于修正流的散度抑制耦合 / Divergence-Suppressing Couplings for Rectified Flow

1️⃣ 一句话总结

本文发现修正流（Rectified Flow）中粒子轨迹的弯曲和缠绕源于速度场中非零散度区域引起的局部膨胀或收缩，并提出一种离线修正方法——散度抑制耦合，通过在生成耦合时削弱速度场的散度分量来拉直轨迹，从而在不增加计算成本的情况下提升图像生成等任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10730

arXiv 提交日期: 2026-05-11

multi-modal aigc model training image generation image editing multimodal diffusion transformer text rendering human evaluation

Qwen-Image-2.0 技术报告 / Qwen-Image-2.0 Technical Report

1️⃣ 一句话总结

本文介绍了一个名为Qwen-Image-2.0的统一图像生成与编辑基础模型，它通过将语言理解模型与扩散模型结合，在长文本渲染、多语言排版、高分辨率逼真画质和复杂指令遵循等关键任务上，显著超越了前代模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26341

arXiv 提交日期: 2026-04-29

computer vision multi-modal image generation 3d geometric awareness spatial understanding depth estimation mixture-of-transformers unified generation

SpatialFusion：赋予统一图像生成模型内在的3D几何感知能力 / SpatialFusion: Endowing Unified Image Generation with Intrinsic 3D Geometric Awareness

1️⃣ 一句话总结

本文提出SpatialFusion框架，通过在统一图像生成模型中引入并行空间变换器来学习深度信息，并将这些几何约束注入扩散模型，使得生成的图像在空间一致性上显著超越GPT-4o等现有模型，同时不增加额外推理开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24023

arXiv 提交日期: 2026-04-27

computer vision multi-modal benchmark image generation image editing commercial evaluation payment prediction human annotation

ServImage：来自真实世界商业影像服务的图像生成与编辑基准 / ServImage: An Image Generation and Editing Benchmark from Real-world Commercial Imaging Services

1️⃣ 一句话总结

该研究提出了一个名为ServImage的商业图像基准，通过分析超过29万美元的真实付费设计项目数据，建立了一套包含任务、评分和支付预测模型的系统，用于评估AI生成的图像是否具有实际商业价值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24763

arXiv 提交日期: 2026-04-27

multi-modal computer vision pixel embeddings vision encoder-free unified multimodal model image generation visual understanding

Tuna-2：像素嵌入在多模态理解与生成中超越视觉编码器 / Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

1️⃣ 一句话总结

本文提出Tuna-2模型，通过直接使用像素嵌入而非预训练视觉编码器来处理图像，简化了多模态模型架构，同时在理解和生成任务上均达到顶尖性能，表明端到端的像素空间学习比传统的编码器方法更具优势。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19141

arXiv 提交日期: 2026-04-21

computer vision aigc diffusion models adaptive sampling image generation patch-level denoising text-to-image

去噪，快与慢：面向图像生成的难度感知自适应采样 / Denoising, Fast and Slow: Difficulty-Aware Adaptive Sampling for Image Generation

1️⃣ 一句话总结

本文提出了一种名为Patch Forcing的图像生成方法，通过让模型在生成图像时，对不同区域（如简单背景和复杂物体）采用不同的去噪速度，优先处理简单区域以帮助处理复杂区域，从而在不增加计算量的情况下提升图像质量，并在多个任务上取得更优结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19748

arXiv 提交日期: 2026-04-21

computer vision aigc multi-modal virtual try-on image generation garment preservation real-time inference benchmark

Tstars-Tryon 1.0：面向多样化时尚单品的鲁棒且逼真的虚拟试穿系统 / Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items

1️⃣ 一句话总结

本文提出了一套商业级的虚拟试穿系统Tstars-Tryon 1.0，通过优化模型架构、数据处理和推理速度，能够处理复杂真实场景（如极端姿势、光线变化），实现高保真度的服装细节还原，并支持多种时尚品类和多人组合搭配，已在淘宝App大规模部署并服务千万用户。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13938

arXiv 提交日期: 2026-04-15

computer vision model training multi-modal image generation diffusion transformer pose guidance retrieval-augmented generation disentangled representation

ASTRA：通过检索增强姿态引导与解耦位置嵌入增强多主体生成 / ASTRA: Enhancing Multi-Subject Generation with Retrieval-Augmented Pose Guidance and Disentangled Position Embedding

1️⃣ 一句话总结

这篇论文提出了一个名为ASTRA的新框架，它通过将人物外观与姿态结构在模型内部解耦，并利用外部检索的姿态信息作为精确引导，成功解决了在生成包含多个不同姿态人物的图像时，容易出现的身份混淆和姿态扭曲问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12281

arXiv 提交日期: 2026-04-14

computer vision model training multi-modal style transfer diffusion models attention mechanism training-free image generation

MAST：基于掩码引导注意力质量分配的免训练多风格迁移方法 / MAST: Mask-Guided Attention Mass Allocation for Training-Free Multi-Style Transfer

1️⃣ 一句话总结

这篇论文提出了一种名为MAST的免训练新方法，它通过精确控制扩散模型中的注意力分配，成功解决了多风格图像合成中常见的边界瑕疵和结构失真问题，实现了高质量、无干扰的多风格融合。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.20079

1️⃣ 一句话总结

arXiv ID: 2605.17733

1️⃣ 一句话总结

arXiv ID: 2605.10730

1️⃣ 一句话总结

arXiv ID: 2604.26341

1️⃣ 一句话总结

arXiv ID: 2604.24023

1️⃣ 一句话总结

arXiv ID: 2604.24763

1️⃣ 一句话总结

arXiv ID: 2604.19141

1️⃣ 一句话总结

arXiv ID: 2604.19748

1️⃣ 一句话总结

arXiv ID: 2604.13938

1️⃣ 一句话总结

arXiv ID: 2604.12281

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.20079 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.17733 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10730 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26341 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24023 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24763 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19141 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19748 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13938 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12281 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.20079

arXiv ID: 2605.17733

arXiv ID: 2605.10730

arXiv ID: 2604.26341

arXiv ID: 2604.24023

arXiv ID: 2604.24763

arXiv ID: 2604.19141

arXiv ID: 2604.19748

arXiv ID: 2604.13938

arXiv ID: 2604.12281