arXiv最新AI论文速览速学

🔍

标签: #text-to-image ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Denoising, Fast and Slow: Difficulty-Aware Adaptive Sampling for Image Generation 04-26

arXiv ID: 2512.15560

arXiv 提交日期: 2025-12-17

model training model evaluation multi-modal text encoder diffusion models benchmark text-to-image text-to-video

GRAN-TED：为扩散模型生成鲁棒、对齐且细致的文本嵌入 / GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一个名为GRAN-TED的新方法，它通过一个快速高效的文本基准测试和一个两阶段训练策略，显著提升了文生图/视频扩散模型中文本编码器的性能，使生成的图像和视频更精准地符合文字描述。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.15110

arXiv 提交日期: 2025-12-17

computer vision model evaluation aigc low-level vision zero-shot evaluation text-to-image generative models benchmark

Nano Banana Pro是低层视觉全能选手吗？基于14项任务和40个数据集的综合评估 / Is Nano Banana Pro a Low-Level Vision All-Rounder? A Comprehensive Evaluation on 14 Tasks and 40 Datasets

1️⃣ 一句话总结

这篇论文通过大规模测试发现，AI图像生成模型Nano Banana Pro在无需专门训练的情况下，处理多种图像修复和增强任务时，虽然生成的图片看起来更自然、细节更丰富，但在需要精确匹配原始像素的传统量化指标上仍不如专门的算法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14008

arXiv 提交日期: 2025-12-16

model training multi-modal natural language processing masked discrete diffusion multimodal generation inference acceleration sparse attention text-to-image

稀疏LaViDa：稀疏多模态离散扩散语言模型 / Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为Sparse-LaViDa的新方法，它通过动态移除扩散模型推理过程中不必要的计算，将图像生成和编辑等任务的速度提升了一倍，同时保持了生成质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13427

arXiv 提交日期: 2025-12-15

aigc model evaluation multi-modal text-to-image bias detection genetic algorithm bias severity llm evaluation

挖掘差距：文本到图像模型中偏见的自动挖掘 / MineTheGap: Automatic Mining of Biases in Text-to-Image Models

1️⃣ 一句话总结

这篇论文提出了一种名为MineTheGap的自动化方法，它利用遗传算法和一种新的偏见评分机制，主动寻找并评估文本到图像模型在生成图片时可能暴露出的社会偏见（如职业与种族的刻板关联）或多样性不足等问题，而不仅仅是检测已知提示下的偏见。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13672

arXiv 提交日期: 2025-12-15

model training aigc natural language processing text-to-image personalization textual inversion embedding optimization prompt fidelity

用于个性化文本到图像生成的方向性文本反转 / Directional Textual Inversion for Personalized Text-to-Image Generation

1️⃣ 一句话总结

这项研究提出了一种名为方向性文本反转的新方法，通过只优化文本嵌入向量的方向而非大小，解决了现有技术在复杂文本提示下生成图像效果不佳的问题，从而在保持个性化主体相似性的同时，显著提升了生成图像与文本描述的匹配度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13006

arXiv 提交日期: 2025-12-15

model training aigc multi-modal diffusion distillation text-to-image few-step generation model acceleration practical guidelines

文本到图像生成的少步蒸馏：实用指南 / Few-Step Distillation for Text-to-Image Generation: A Practical Guide

1️⃣ 一句话总结

这项研究首次系统性地将先进的模型蒸馏技术应用于强大的文本到图像生成模型，通过统一框架分析并解决了从类别标签转向自由文本提示时的关键难题，为实际应用提供了快速、高保真且资源高效的图像生成方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.11749

arXiv 提交日期: 2025-12-12

computer vision model training multi-modal text-to-image latent diffusion visual foundation models representation learning generative ai

SVG-T2I：无需变分自编码器即可扩展文本到图像的潜在扩散模型 / SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

1️⃣ 一句话总结

这篇论文提出了一个名为SVG-T2I的新方法，它绕过了传统变分自编码器，直接在视觉基础模型的表示空间里训练大型文本生成图像模型，并取得了与现有方法相当的高质量生成效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.07584

arXiv 提交日期: 2025-12-08

computer vision model training aigc image generation text-to-image diffusion model multilingual rendering open-source ecosystem

LongCat-Image 技术报告 / LongCat-Image Technical Report

1️⃣ 一句话总结

这篇论文介绍了一个名为LongCat-Image的开源双语图像生成模型，它在生成图片时能准确渲染中英文字符、效果逼真、运行高效，并提供了完整的训练工具链以支持开发者社区。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.04981

arXiv 提交日期: 2025-12-04

llm multi-modal model evaluation social bias text-to-image system prompts fairness benchmark

对齐但刻板？系统提示对基于LVLM的文生图模型中社会偏见的隐性影响 / Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models

1️⃣ 一句话总结

这篇论文发现，基于大视觉语言模型的文生图系统会因内置的‘系统提示’而产生严重的刻板印象偏见，并提出了一个无需额外训练的‘FairPro’框架，让模型能自我审查并生成更公平的图像。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05150

arXiv 提交日期: 2025-12-03

model training multi-modal aigc flow matching one-step generation text-to-image inference acceleration adversarial training

TwinFlow：基于自对抗流实现大模型的一步生成 / TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

1️⃣ 一句话总结

这篇论文提出了一种名为TwinFlow的新方法，它能让大型多模态生成模型（如图像生成模型）仅用一步就完成高质量的生成任务，在保持生成质量的同时，将计算成本降低了约100倍，并且避免了传统加速方法中训练不稳定和复杂度高的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.15560

1️⃣ 一句话总结

arXiv ID: 2512.15110

1️⃣ 一句话总结

arXiv ID: 2512.14008

1️⃣ 一句话总结

arXiv ID: 2512.13427

1️⃣ 一句话总结

arXiv ID: 2512.13672

1️⃣ 一句话总结

arXiv ID: 2512.13006

1️⃣ 一句话总结

arXiv ID: 2512.11749

1️⃣ 一句话总结

arXiv ID: 2512.07584

1️⃣ 一句话总结

arXiv ID: 2512.04981

1️⃣ 一句话总结

arXiv ID: 2512.05150

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.15560 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.15110 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14008 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13427 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13672 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13006 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.11749 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.07584 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.04981 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05150 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.15560

arXiv ID: 2512.15110

arXiv ID: 2512.14008

arXiv ID: 2512.13427

arXiv ID: 2512.13672

arXiv ID: 2512.13006

arXiv ID: 2512.11749

arXiv ID: 2512.07584

arXiv ID: 2512.04981

arXiv ID: 2512.05150