arXiv最新AI论文速览速学

🔍

标签: #text-to-image ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 89 72小时内新更新论文 72h更新 172 最新: Denoising, Fast and Slow: Difficulty-Aware Adaptive Sampling for Image Generation 04-26

arXiv ID: 2603.18528

arXiv 提交日期: 2026-03-19

model training multi-modal aigc text-to-image compositional generation reward optimization diffusion models multi-reward learning

面向组合式生成的关联加权多奖励优化 / Correlation-Weighted Multi-Reward Optimization for Compositional Generation

1️⃣ 一句话总结

这篇论文提出了一种名为关联加权多奖励优化的新方法，通过分析不同概念奖励之间的关联性，自适应地调整优化权重，有效提升了文生图模型在复杂多概念提示下的组合生成能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.18767

arXiv 提交日期: 2026-03-19

model training aigc multi-modal concept unlearning text-to-image diffusion models safety adversarial robustness

一个概念不止一个词：文本到图像扩散模型中的多样化遗忘 / A Concept is More Than a Word: Diversified Unlearning in Text-to-Image Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一种名为‘多样化遗忘’的新方法，通过使用一组多样化的文本提示来更精确地代表一个概念，从而在文本到图像生成模型中更有效地、更少副作用地‘遗忘’掉有害或不想要的概念，解决了传统仅依赖关键词进行遗忘时容易误删相关内容的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10990

arXiv 提交日期: 2026-03-11

computer vision model evaluation aigc color fidelity text-to-image image generation evaluation metric realism calibration

过于鲜艳而不真实？生成式色彩保真度的基准测试与校准 / Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

1️⃣ 一句话总结

这篇论文针对当前文本生成图像模型在生成写实风格图片时颜色过于鲜艳失真的问题，提出了一个包含数据集、评估指标和优化方法的完整框架，旨在客观评估并提升生成图像的色彩真实感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03281

arXiv 提交日期: 2026-03-03

model training multi-modal theory diffusion models classifier-free guidance control theory text-to-image stability analysis

CFG-Ctrl：基于控制的免分类器扩散引导 / CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

1️⃣ 一句话总结

这篇论文提出了一种名为CFG-Ctrl的新框架，它将扩散模型中的免分类器引导技术重新解释为一个控制问题，并引入了一种更稳定、更精准的非线性控制方法，从而显著提升了AI生成图像与文本描述的匹配度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01068

arXiv 提交日期: 2026-03-01

multi-modal model training aigc diffusion models multimodal generation text-to-image mixture of diffusion length adaptation

LLaDA-o：一种高效且长度自适应的全能扩散模型 / LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

1️⃣ 一句话总结

这篇论文提出了一种名为LLaDA-o的新型扩散模型，它通过创新的混合框架和数据驱动的长度自适应策略，在理解和生成文本、图像等多种模态内容上取得了顶尖性能，且无需改变模型结构就能灵活处理不同长度的输出。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22570

arXiv 提交日期: 2026-02-26

model evaluation computer vision aigc diffusion models evaluation framework guidance scale text-to-image human preference

引导至关重要：重新审视文本到图像生成的评估陷阱 / Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

1️⃣ 一句话总结

这篇论文揭露了当前文本生成图像领域评估方法的重大缺陷——主流偏好模型严重偏向于高引导强度，导致许多新方法看似效果提升实则可能损害图像质量，并提出了一个更公平的新评估框架来纠正这一偏差。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22120

arXiv 提交日期: 2026-02-25

aigc model evaluation multi-modal text-to-image geographical bias diversity metrics fairness evaluation vision-language models

GeoDiv：用于衡量文本到图像模型地理多样性的框架 / GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

1️⃣ 一句话总结

这篇论文提出了一个名为GeoDiv的新框架，它利用大语言和视觉语言模型来系统评估文本生成图像模型（如Stable Diffusion）在描绘不同国家和地区时存在的偏见和缺乏多样性问题，发现模型倾向于对某些发展中国家（如印度、尼日利亚）产生贫困、破旧的刻板描绘。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20672

arXiv 提交日期: 2026-02-24

aigc model training computer vision text-to-image bounding box control color control structured generation parametric annotation

从边界框到图像：大规模文生图模型中的数值边界框与颜色控制 / BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

1️⃣ 一句话总结

这篇论文提出了一种名为BBQ的新方法，让文生图AI模型能够直接理解并精确执行用户输入的数值指令（如物体位置、大小和具体RGB颜色值），从而用类似拖拽和拾色器的直观操作替代了传统模糊的文字描述，实现了对生成图像的精准空间和色彩控制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05951

arXiv 提交日期: 2026-02-05

model training aigc computer vision flow matching source distribution text-to-image generative models conditional generation

更好的源，更好的流：为流匹配学习条件依赖的源分布 / Better Source, Better Flow: Learning Condition-Dependent Source Distribution for Flow Matching

1️⃣ 一句话总结

这篇论文提出，在文本生成图像的流匹配模型中，学习一个根据文本条件变化的源分布，而不是使用固定的高斯分布，可以显著提升模型性能，实现更快的收敛和更好的生成效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03410

arXiv 提交日期: 2026-02-03

model training multi-modal machine learning machine unlearning stable diffusion lora clip text-to-image

UnHype：用于动态LoRA遗忘的CLIP引导超网络 / UnHype: CLIP-Guided Hypernetworks for Dynamic LoRA Unlearning

1️⃣ 一句话总结

这篇论文提出了一个名为UnHype的新方法，它通过一个能根据输入内容动态调整参数的智能网络，帮助AI图像生成模型更精准、灵活地“忘记”特定事物（如名人或有害内容），同时不影响模型生成其他正常图片的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.18528

1️⃣ 一句话总结

arXiv ID: 2603.18767

1️⃣ 一句话总结

arXiv ID: 2603.10990

1️⃣ 一句话总结

arXiv ID: 2603.03281

1️⃣ 一句话总结

arXiv ID: 2603.01068

1️⃣ 一句话总结

arXiv ID: 2602.22570

1️⃣ 一句话总结

arXiv ID: 2602.22120

1️⃣ 一句话总结

arXiv ID: 2602.20672

1️⃣ 一句话总结

arXiv ID: 2602.05951

1️⃣ 一句话总结

arXiv ID: 2602.03410

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.18528 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.18767 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03281 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01068 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22570 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22120 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20672 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05951 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03410 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.18528

arXiv ID: 2603.18767

arXiv ID: 2603.10990

arXiv ID: 2603.03281

arXiv ID: 2603.01068

arXiv ID: 2602.22570

arXiv ID: 2602.22120

arXiv ID: 2602.20672

arXiv ID: 2602.05951

arXiv ID: 2602.03410