arXiv最新AI论文速览速学

📄

2512.03540

🤖 系统

12-04 15:09

computer vision multi-modal aigc

text-to-image diffusion models procedural generation visual consistency instruction following

CookAnything：一个灵活且一致的用于多步骤菜谱图像生成的框架 / CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

1️⃣ 一句话总结

这篇论文提出了一个名为CookAnything的新框架，它能够根据任意长度的文字菜谱指令，智能地生成一系列既连贯又步骤分明的烹饪过程图片，解决了现有AI模型在生成多步骤、结构化图像序列时面临的灵活性和一致性难题。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.22982

🤖 系统

12-04 14:56

aigc model training multi-modal

text-to-image text rendering diffusion model multimodal backbone efficient deployment

Ovis-Image技术报告 / Ovis-Image Technical Report

1️⃣ 一句话总结

这篇论文介绍了一个名为Ovis-Image的高效文本生成图像模型，它虽然体积小巧，但通过结合强大的多模态核心和专注于文本的训练方法，能够在普通高端显卡上实现媲美大型模型的文字渲染质量。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.20645

🤖 系统

12-04 14:51

computer vision model training aigc

diffusion transformers image generation pixel space text-to-image end-to-end training

PixelDiT：用于图像生成的像素扩散变换器 / PixelDiT: Pixel Diffusion Transformers for Image Generation

1️⃣ 一句话总结

这篇论文提出了一种名为PixelDiT的新型图像生成模型，它摒弃了传统两阶段流程中依赖的压缩编码器，直接在原始像素空间进行端到端训练，通过结合全局语义和局部细节的双层变换器设计，在保持图像精细纹理的同时，取得了比以往像素级生成模型更好的效果。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.17282

🤖 系统

12-03 15:54

multi-modal natural language processing model evaluation

text-to-image cultural bias multilingual models model alignment representation activation

文化褪色之处：揭示文本到图像生成中的文化鸿沟 / Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation

1️⃣ 一句话总结

这篇论文发现，当前的多语言文本生成图像模型在处理不同语言提示时，常常产生文化中立或偏向英语文化的结果，其根源在于模型内部文化相关表征未被充分激活，而非缺乏文化知识；为此，作者提出了一种定位文化敏感神经元的方法，并设计了两种无需全面微调模型的策略来增强生成图像的文化一致性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.22989

🤖 系统

12-03 15:47

computer vision model evaluation benchmark

text-to-image multi-reference generation benchmark dataset model analysis image editing

MultiBanana：一个用于多参考文本到图像生成的挑战性基准 / MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

1️⃣ 一句话总结

这篇论文提出了一个名为MultiBanana的新基准，它系统地评估了AI模型根据多张参考图片生成新图像的能力，并揭示了现有模型在应对参考图片数量、风格、尺度等复杂差异时的优势和不足。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.22677

🤖 系统

12-01 14:25

model training aigc computer vision

diffusion distillation distribution matching cfg augmentation text-to-image model efficiency

解耦的DMD：以CFG增强为矛，以分布匹配为盾 / Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

1️⃣ 一句话总结

这篇论文重新审视了扩散模型蒸馏的主流认知，发现其核心驱动力并非传统的分布匹配，而是一个被忽视的“CFG增强”机制，后者才是实现高效少步生成的关键引擎，而分布匹配仅起到稳定训练的辅助作用，这一新理解推动了更优蒸馏方法的开发。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.12207

🤖 系统

11-30 17:54

multi-modal model training aigc

diffusion models token routing multimodal fusion text-to-image sparse selection

📄 论文总结

状态混合：面向多模态生成的路由令牌级动态机制 / Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

1️⃣ 一句话总结

这篇论文提出了一种名为‘状态混合’的新方法，通过智能路由机制动态整合不同模态（如文本和图像）的特征，在显著减少参数量的情况下，实现了与更大模型相媲美甚至更优的多模态生成与编辑效果。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.07499

🤖 系统

11-30 17:52

model training computer vision aigc

diffusion models attention guidance optimal transport text-to-image adversarial training

📄 论文总结

迈向可靠扩散采样的前沿：基于对抗性Sinkhorn注意力引导的方法 / Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance

1️⃣ 一句话总结

这项研究提出了一种名为ASAG的新方法，通过引入对抗性成本优化扩散模型中的注意力机制，从而在不重新训练模型的情况下提升生成图像的质量、可控性和可靠性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.06876

🤖 系统

11-30 17:52

natural language processing computer vision multi-modal

text-to-image structured captions model training evaluation protocol fusion mechanism

📄 论文总结

用千言生成一图：通过结构化描述增强文本到图像生成 / Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

1️⃣ 一句话总结

这篇论文通过训练首个基于长结构化描述的开源文本生成图像模型，并引入新的融合机制和评估方法，解决了传统模型因输入文本简短而导致的控制力不足问题，显著提升了生成图像的精确性和可控性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.03317

🤖 系统

11-30 17:50

model training natural language processing computer vision

diffusion models preference optimization text-to-image alignment safeguarded training

📄 论文总结

扩散-SDPO：扩散模型的安全直接偏好优化 / Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models

1️⃣ 一句话总结

本文提出了一种名为Diffusion-SDPO的新方法，通过自适应调整优化过程中的梯度更新，解决了现有扩散模型在偏好学习时可能导致图像质量下降的问题，从而在保持简单高效的同时，显著提升了生成图像与人类偏好的对齐效果。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.03540

1️⃣ 一句话总结

2511.22982

1️⃣ 一句话总结

2511.20645

1️⃣ 一句话总结

2511.17282

1️⃣ 一句话总结

2511.22989

1️⃣ 一句话总结

2511.22677

1️⃣ 一句话总结

2511.12207

📄 论文总结

1️⃣ 一句话总结

2511.07499

📄 论文总结

1️⃣ 一句话总结

2511.06876

📄 论文总结

1️⃣ 一句话总结

2511.03317

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.03540 📝

1️⃣ 一句话总结

2511.22982 📝

1️⃣ 一句话总结

2511.20645 📝

1️⃣ 一句话总结

2511.17282 📝

1️⃣ 一句话总结

2511.22989 📝

1️⃣ 一句话总结

2511.22677 📝

1️⃣ 一句话总结

2511.12207 📝

📄 论文总结

1️⃣ 一句话总结

2511.07499 📝

📄 论文总结

1️⃣ 一句话总结

2511.06876 📝

📄 论文总结

1️⃣ 一句话总结

2511.03317 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2512.03540

2511.22982

2511.20645

2511.17282

2511.22989

2511.22677

2511.12207

2511.07499

2511.06876

2511.03317