arXiv最新AI论文速览速学

🔍

标签: #text-to-image ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Denoising, Fast and Slow: Difficulty-Aware Adaptive Sampling for Image Generation 04-26

arXiv ID: 2601.22276

arXiv 提交日期: 2026-01-29

model evaluation aigc data shapley value attribution text-to-image data valuation computational efficiency

SurrogateSHAP：一种无需重新训练的文本到图像模型贡献者归属方法 / SurrogateSHAP: Training-Free Contributor Attribution for Text-to-Image (T2I) Models

1️⃣ 一句话总结

这篇论文提出了一种名为SurrogateSHAP的新方法，它能够高效、无需重新训练地评估和量化不同数据贡献者对文本生成图像模型性能的影响，从而为公平的数据补偿和模型审计提供支持。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16208

arXiv 提交日期: 2026-01-22

model training multi-modal computer vision text-to-image diffusion models representation autoencoders scaling laws latent space

利用表征自动编码器扩展文本到图像的扩散变换器 / Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

1️⃣ 一句话总结

这项研究发现，在大型文本生成图像任务中，一种名为“表征自动编码器”的模型比当前主流技术更简单、更强大，它训练更快、生成质量更高，并且能有效防止过拟合。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17027

arXiv 提交日期: 2026-01-17

multi-modal model evaluation benchmark scientific image synthesis text-to-image logical validity multimodal reasoning synthetic data

科学图像合成：基准测试、方法论与下游应用 / Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

1️⃣ 一句话总结

这篇论文系统地研究了如何生成科学上正确的图像，提出了一个能提升结构精度的逻辑驱动框架和一个评估科学正确性的新基准，并证明使用高质量合成图像训练大模型能有效提升其多模态推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10332

arXiv 提交日期: 2026-01-15

llm multi-modal model training text-to-image reasoning diffusion models prompt rewriting reinforcement learning

先思考再生成：基于大语言模型编码器的推理感知文本到图像扩散模型 / Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

1️⃣ 一句话总结

这篇论文提出了一种名为‘先思考再生成’的新方法，通过让大语言模型先对用户文本指令进行推理和改写，再指导图像生成，从而显著提升了生成图像在事实一致性、语义对齐和视觉真实性方面的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10061

arXiv 提交日期: 2026-01-15

video generation text-to-image model training chain-of-frame reasoning visual refinement progressive generation video models aesthetic enhancement

CoF-T2I：将视频模型作为纯视觉推理器用于文本到图像生成 / CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

1️⃣ 一句话总结

这项研究提出了一种名为CoF-T2I的新方法，它巧妙地将视频生成模型中的‘帧链’推理能力用于文本生成图像任务，通过让模型像做视觉推理一样逐步优化图像细节，从而显著提升了生成图像的质量和美感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.03193

arXiv 提交日期: 2026-01-06

multi-modal model training aigc self-improvement multimodal generation text-to-image cycle consistency self-supervised learning

UniCorn：通过自生成监督实现自改进统一多模态模型 / UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

1️⃣ 一句话总结

这篇论文提出了一个名为UniCorn的自我改进框架，它能让一个统一的多模态AI模型通过内部角色扮演和自我博弈，在没有外部数据或人工指导的情况下，显著提升自己根据文字描述生成高质量图像的能力，同时保持对图像内容的理解力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24138

arXiv 提交日期: 2025-12-30

model training reinforcement learning multi-modal diffusion models reward hacking regularization text-to-image sample efficiency

GARDO：避免奖励黑客的扩散模型强化方法 / GARDO: Reinforcing Diffusion Models without Reward Hacking

1️⃣ 一句话总结

这篇论文提出了一个名为GARDO的新框架，它通过选择性惩罚高不确定性样本、动态更新参考模型以及奖励高质量且多样化的生成结果，有效解决了扩散模型在强化学习微调中常见的奖励黑客、探索不足和模式崩溃问题，从而在不牺牲效率的前提下提升了图像生成的质量和多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22877

arXiv 提交日期: 2025-12-28

model evaluation benchmark multi-modal concept erasure diffusion models multimodal evaluation robustness text-to-image

M-ErasureBench：一个用于扩散模型概念擦除的综合多模态评估基准 / M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models

1️⃣ 一句话总结

这篇论文提出了首个超越文本提示的多模态概念擦除评估基准M-ErasureBench，并设计了一个名为IRECE的即插即用模块，能有效提升扩散模型在图像编辑等真实场景下抵御通过嵌入或潜在代码重新生成有害或受保护概念的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22374

arXiv 提交日期: 2025-12-26

model training aigc multi-modal text-to-image flow matching self-evaluation any-step inference from-scratch training

自评估解锁任意步数的文本到图像生成 / Self-Evaluation Unlocks Any-Step Text-to-Image Generation

1️⃣ 一句话总结

这篇论文提出了一种名为Self-E的全新训练方法，它通过让模型在训练时自我评估生成图像的质量，实现了无需预训练教师模型、能从零开始训练，并且能在任意推理步数（从几步到几十步）下都生成高质量图像的文本到图像生成模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16905

arXiv 提交日期: 2025-12-18

model training data aigc text-to-image data selection meta-gradient data efficiency training optimization

炼金术士：通过元梯度数据选择提升文本到图像模型训练效率 / Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

1️⃣ 一句话总结

这篇论文提出了一个名为‘炼金术士’的智能数据筛选框架，它能自动从海量图文数据中挑选出最有价值的训练样本，从而让AI绘画模型用更少的数据、更快的速度，训练出效果更好的图像。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.22276

1️⃣ 一句话总结

arXiv ID: 2601.16208

1️⃣ 一句话总结

arXiv ID: 2601.17027

1️⃣ 一句话总结

arXiv ID: 2601.10332

1️⃣ 一句话总结

arXiv ID: 2601.10061

1️⃣ 一句话总结

arXiv ID: 2601.03193

1️⃣ 一句话总结

arXiv ID: 2512.24138

1️⃣ 一句话总结

arXiv ID: 2512.22877

1️⃣ 一句话总结

arXiv ID: 2512.22374

1️⃣ 一句话总结

arXiv ID: 2512.16905

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.22276 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16208 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17027 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10332 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10061 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.03193 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24138 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22877 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22374 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16905 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.22276

arXiv ID: 2601.16208

arXiv ID: 2601.17027

arXiv ID: 2601.10332

arXiv ID: 2601.10061

arXiv ID: 2601.03193

arXiv ID: 2512.24138

arXiv ID: 2512.22877

arXiv ID: 2512.22374

arXiv ID: 2512.16905