arXiv最新AI论文速览速学

🔍

标签: #image generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity 03-12

arXiv ID: 2603.10990

arXiv 提交日期: 2026-03-11

computer vision model evaluation aigc color fidelity text-to-image image generation evaluation metric realism calibration

过于鲜艳而不真实？生成式色彩保真度的基准测试与校准 / Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

1️⃣ 一句话总结

这篇论文针对当前文本生成图像模型在生成写实风格图片时颜色过于鲜艳失真的问题，提出了一个包含数据集、评估指标和优化方法的完整框架，旨在客观评估并提升生成图像的色彩真实感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04980

arXiv 提交日期: 2026-03-05

multi-modal model training aigc autoregressive model next-token prediction image generation image editing multi-resolution

通过基础的下一个词元预测统一理解、生成与编辑的简单基线模型 / A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

1️⃣ 一句话总结

这篇论文提出了一个名为Wallaroo的简单自回归模型，它仅使用基础的下一个词元预测技术，就能同时处理多模态理解、图像生成和编辑任务，并在实验中展现出与现有统一模型相当甚至更优的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02943

arXiv 提交日期: 2026-03-03

model training aigc multi-modal diffusion models sampling acceleration feature caching pade approximation image generation

TC-Padé：用于扩散加速的轨迹一致性帕德逼近 / TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration

1️⃣ 一句话总结

这篇论文提出了一种名为TC-Padé的新方法，它通过更精确的数学逼近和自适应策略来加速扩散模型的图像和视频生成过程，在减少计算步骤的同时保持高质量输出，显著超越了现有的加速技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21185

arXiv 提交日期: 2026-02-24

model training natural language processing computer vision discrete diffusion sampling methods training curriculum language modeling image generation

扩散对偶性，第二章：Ψ采样器与高效课程学习 / The Diffusion Duality, Chapter II: $Ψ$-Samplers and Efficient Curriculum

1️⃣ 一句话总结

这篇论文提出了一种新的预测-校正采样器家族和高效训练方法，显著提升了离散扩散模型在文本和图像生成上的性能，使其采样质量能随步骤增加而持续改进，并大幅降低了训练所需的时间和内存。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17270

arXiv 提交日期: 2026-02-19

model training computer vision multi-modal latent representation diffusion models image generation video generation training efficiency

统一潜变量（UL）：如何训练你的潜变量 / Unified Latents (UL): How to train your latents

1️⃣ 一句话总结

这篇论文提出了一个名为‘统一潜变量’的新框架，它通过巧妙结合扩散模型的先验知识和解码器，能够用更少的计算量高效地学习图像和视频数据的压缩表示，并在多个基准测试中取得了领先的重建质量和生成效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15030

arXiv 提交日期: 2026-02-16

computer vision model training aigc image generation spherical latent space single-pass generation encoder-decoder efficient inference

基于球面编码器的图像生成 / Image Generation with a Sphere Encoder

1️⃣ 一句话总结

这篇论文提出了一种名为‘球面编码器’的新型图像生成框架，它通过将图像映射到球面空间并直接解码生成图片，仅需一次或数次前向计算就能达到与复杂多步扩散模型相媲美的效果，同时大大降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.12133

arXiv 提交日期: 2026-02-12

model evaluation aigc computer vision bias audit image generation fairness demographic representation colorimetric analysis

中性提示，非中性人群：量化Gemini Flash 2.5 Image与GPT Image 1.5中的性别与肤色偏见 / Neutral Prompts, Non-Neutral People: Quantifying Gender and Skin-Tone Bias in Gemini Flash 2.5 Image and GPT Image 1.5

1️⃣ 一句话总结

这项研究通过量化分析发现，即使使用中性文本提示，Gemini和GPT两大主流AI图像生成模型仍存在显著的肤色与性别偏见，例如默认生成白人形象，且在性别倾向上截然相反，揭示了‘中性’提示并不能保证公平、包容的图像生成结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.22093

arXiv 提交日期: 2026-01-29

multi-modal model evaluation aigc social bias associational bias inter-model communication demographic drift image generation

探究大型生成模型间通信中的关联性偏见 / Investigating Associational Biases in Inter-Model Communication of Large Generative Models

1️⃣ 一句话总结

这项研究发现，在图像生成和描述交替进行的AI模型间通信中，模型会学习并传播关于人种、性别和年龄的刻板关联，导致下游任务（如识别人类活动和情绪）出现系统性偏见，并提出了相应的缓解策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20642

arXiv 提交日期: 2026-01-28

model evaluation computer vision aigc diffusion models memorization detection anisotropy generative models image generation

通过对数概率的各向异性检测和缓解扩散模型中的记忆效应 / Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

1️⃣ 一句话总结

这篇论文提出了一种新的方法来检测和缓解扩散模型中的记忆效应，该方法通过分析模型在生成过程中的内部信号（特别是对数概率分布的方向性），能够更快速、更准确地识别出模型是否在简单地复制训练数据，而不是进行真正的创造性生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17124

arXiv 提交日期: 2026-01-23

model training computer vision aigc image generation quantization representation learning benchmark vae

iFSQ：用一行代码改进FSQ以提升图像生成 / iFSQ: Improving FSQ for Image Generation with 1 Line of Code

1️⃣ 一句话总结

这篇论文通过将原始FSQ中的激活函数替换为一个分布匹配映射，仅用一行代码就解决了图像生成中离散与连续表示之间的权衡问题，并发现每维度约4比特是两者的最佳平衡点，同时揭示了自回归模型收敛快但扩散模型上限更高的规律。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10990

1️⃣ 一句话总结

arXiv ID: 2603.04980

1️⃣ 一句话总结

arXiv ID: 2603.02943

1️⃣ 一句话总结

arXiv ID: 2602.21185

1️⃣ 一句话总结

arXiv ID: 2602.17270

1️⃣ 一句话总结

arXiv ID: 2602.15030

1️⃣ 一句话总结

arXiv ID: 2602.12133

1️⃣ 一句话总结

arXiv ID: 2601.22093

1️⃣ 一句话总结

arXiv ID: 2601.20642

1️⃣ 一句话总结

arXiv ID: 2601.17124

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04980 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02943 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21185 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17270 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15030 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.12133 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.22093 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20642 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17124 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10990

arXiv ID: 2603.04980

arXiv ID: 2603.02943

arXiv ID: 2602.21185

arXiv ID: 2602.17270

arXiv ID: 2602.15030

arXiv ID: 2602.12133

arXiv ID: 2601.22093

arXiv ID: 2601.20642

arXiv ID: 2601.17124