arXiv最新AI论文速览速学

🔍

标签: #image generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: RS-Gen: A Multi-Stage Agentic Framework for Reasoning and Search-Augmented Image Generation 06-23

arXiv ID: 2604.08301

arXiv 提交日期: 2026-04-09

computer vision model training data anomaly synthesis diffusion models few-shot learning industrial inspection image generation

GroundingAnomaly：基于空间定位扩散的少样本异常合成 / GroundingAnomaly: Spatially-Grounded Diffusion for Few-Shot Anomaly Synthesis

1️⃣ 一句话总结

这篇论文提出了一种名为GroundingAnomaly的新方法，它利用像素级语义图精准控制异常生成的位置，并通过门控注意力机制高效利用少量样本，从而合成高质量的异常图像，显著提升了工业质检中异常检测与分割的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06989

arXiv 提交日期: 2026-04-08

computer vision aigc model training image generation diffusion models personalization photomosaic structure alignment

结构对齐与个性化扩散的生成式照片马赛克 / Generative Phomosaic with Structure-Aligned and Personalized Diffusion

1️⃣ 一句话总结

这篇论文提出了一种全新的生成式照片马赛克方法，它利用扩散模型根据参考图像自动生成每一块小图，从而在保证整体结构一致性的同时，创造出语义丰富且风格统一的马赛克作品，克服了传统方法依赖海量图库和简单颜色匹配的局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28114

arXiv 提交日期: 2026-03-30

computer vision model training aigc diffusion models cross-attention frequency modulation training-free control image generation

注意力频率调制：扩散交叉注意力的免训练频谱调制 / Attention Frequency Modulation: Training-Free Spectral Modulation of Diffusion Cross-Attention

1️⃣ 一句话总结

这篇论文提出了一种名为‘注意力频率调制’的新方法，它通过分析并调整AI文生图模型中‘注意力’信号在不同频率上的分布，无需重新训练就能精细地控制生成图像的细节风格和构图，比如让画面更聚焦于整体轮廓或局部细节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27720

arXiv 提交日期: 2026-03-29

computer vision aigc model training image generation differential query transformer brushstroke prediction adversarial training neural painting

观察、比较与绘制：用于自动油画创作的差分查询变换器 / Look, Compare and Draw: Differential Query Transformer for Automatic Oil Painting

1️⃣ 一句话总结

这篇论文提出了一种新的自动油画生成方法，通过模拟人类“观察、比较、绘制”的创作过程，引入差分图像分析来指导模型关注每一笔的增量效果，从而用更少的笔触生成更逼真、更具艺术感的油画作品。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25249

arXiv 提交日期: 2026-03-26

computer vision model training multi-modal image generation tokenization semantic representation latent space prefix learning

面向语义感知的前缀学习：实现高效令牌的图像生成 / Semantic-Aware Prefix Learning for Token-Efficient Image Generation

1️⃣ 一句话总结

这篇论文提出了一种名为SMAP的新型视觉令牌化方法，通过将类别语义信息强制注入到图像表示学习中，并结合一种创新的尾部令牌丢弃策略，使得生成的图像潜在空间不仅重建质量高，而且语义信息更丰富，从而在少量令牌预算下也能实现高质量的图像生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25463

arXiv 提交日期: 2026-03-26

model training systems computer vision autoregressive models image generation inference acceleration cloud-device collaboration uncertainty quantification

CIAR：基于区间的协同解码用于图像生成加速 / CIAR: Interval-based Collaborative Decoding for Image Generation Acceleration

1️⃣ 一句话总结

这篇论文提出了一种名为CIAR的云-端协同框架，通过在设备端使用连续概率区间来量化图像生成过程中不同区域的不确定性，从而大幅加速自回归模型的图像生成速度，同时减少对云端计算的依赖并保持图像质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.19222

arXiv 提交日期: 2026-03-19

model training computer vision aigc diffusion models noise schedules spectral guidance image generation sampling efficiency

基于频谱引导的扩散模型噪声调度方法 / Spectrally-Guided Diffusion Noise Schedules

1️⃣ 一句话总结

这篇论文提出了一种根据图像频谱特性自动设计噪声调度的方法，通过消除冗余步骤，在低步数采样时显著提升了扩散模型的图像生成质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.16373

arXiv 提交日期: 2026-03-17

computer vision model training multi-modal visual tokenization image reconstruction image generation semantic compression autoregressive modeling

用于图像重建与生成的语义一维分词器 / Semantic One-Dimensional Tokenizer for Image Reconstruction and Generation

1️⃣ 一句话总结

这篇论文提出了一种名为SemTok的新型图像编码器，它能够将二维图像压缩成具有高级语义的一维符号序列，从而在图像重建和生成任务中实现更高效、更高质量的结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.16489

arXiv 提交日期: 2026-03-17

model training machine learning aigc machine unlearning generative models optimal transport image generation privacy

基于非平衡最优传输的一步生成模型遗忘学习 / Unlearning for One-Step Generative Models via Unbalanced Optimal Transport

1️⃣ 一句话总结

本文提出了一种名为UOT-Unlearn的新方法，通过非平衡最优传输技术，让高效的一步生成模型能够安全地‘忘记’特定类别（例如敏感内容），同时保持整体图像生成质量，解决了现有遗忘方法不适用于此类快速模型的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14209

arXiv 提交日期: 2026-03-15

computer vision multi-modal aigc image generation diffusion models visual storytelling data visualization conditional generation

ChArtist：通过统一的空间与主题控制生成图示化图表 / ChArtist: Generating Pictorial Charts with Unified Spatial and Subject Control

1️⃣ 一句话总结

这篇论文提出了一个名为ChArtist的专用AI模型，它能够根据用户提供的数据结构和参考图片，自动生成既准确反映数据、又具有视觉美感的图示化图表。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.08301

1️⃣ 一句话总结

arXiv ID: 2604.06989

1️⃣ 一句话总结

arXiv ID: 2603.28114

1️⃣ 一句话总结

arXiv ID: 2603.27720

1️⃣ 一句话总结

arXiv ID: 2603.25249

1️⃣ 一句话总结

arXiv ID: 2603.25463

1️⃣ 一句话总结

arXiv ID: 2603.19222

1️⃣ 一句话总结

arXiv ID: 2603.16373

1️⃣ 一句话总结

arXiv ID: 2603.16489

1️⃣ 一句话总结

arXiv ID: 2603.14209

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.08301 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06989 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28114 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27720 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25249 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25463 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.19222 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.16373 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.16489 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14209 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.08301

arXiv ID: 2604.06989

arXiv ID: 2603.28114

arXiv ID: 2603.27720

arXiv ID: 2603.25249

arXiv ID: 2603.25463

arXiv ID: 2603.19222

arXiv ID: 2603.16373

arXiv ID: 2603.16489

arXiv ID: 2603.14209