📄 论文总结
终端速度匹配 / Terminal Velocity Matching
1️⃣ 一句话总结
这项研究提出了一种名为终端速度匹配的新方法,通过优化扩散模型在生成结束时的行为,实现了仅需1到4步就能生成高质量图像,在ImageNet数据集上取得了当前最优的单步/少步生成效果。
请先 登录 后再提交论文
终端速度匹配 / Terminal Velocity Matching
这项研究提出了一种名为终端速度匹配的新方法,通过优化扩散模型在生成结束时的行为,实现了仅需1到4步就能生成高质量图像,在ImageNet数据集上取得了当前最优的单步/少步生成效果。
画布到图像:基于多模态控制的组合式图像生成 / Canvas-to-Image: Compositional Image Generation with Multimodal Controls
这篇论文提出了一个名为Canvas-to-Image的统一框架,通过将文本、参考图像、空间布局等多种控制信号整合到一个画布中,并采用多任务联合训练,使AI模型能够更准确地生成符合用户复杂意图的组合图像。
Kandinsky 5.0:用于图像和视频生成的基础模型系列 / Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation
这篇论文介绍了Kandinsky 5.0,一个包含图像和视频生成功能的先进基础模型系列,通过创新的数据管理和训练技术实现了高质量、高效率的生成效果,并开源以推动相关研究发展。
RefVTON:基于额外非配对视觉参考的人对人虚拟试穿 / RefVTON: person-to-person Try on with Additional Unpaired Visual Reference
这篇论文提出了一个名为RefTON的虚拟试穿系统,它通过引入不同人穿着目标服装的参考图片来提升试穿效果的真实感和细节还原,同时简化了传统方法中复杂的输入要求,实现了高效且高质量的人对人服装替换。
视觉扩散模型作为几何求解器 / Visual Diffusion Models are Geometric Solvers
这篇论文发现标准的视觉扩散模型能够通过将几何问题转化为图像生成任务,直接解决包括内接正方形问题在内的多个著名几何难题,无需专门设计模型结构。
AlphaFlow:理解与改进MeanFlow模型 / AlphaFlow: Understanding and Improving MeanFlow Models
这篇论文发现现有MeanFlow生成模型存在优化冲突问题,并提出了一种新的AlphaFlow方法,通过渐进式训练策略有效解决了冲突,在图像生成任务上取得了更快的收敛速度和更好的性能表现。
基于表征自动编码器的扩散变换器 / Diffusion Transformers with Representation Autoencoders
这篇论文提出用预训练的表征编码器替代传统VAE,构建新型表征自动编码器,解决了扩散变换器中潜在空间信息容量低和表示质量差的问题,从而在图像生成任务上取得了更优的效果。
GIR-Bench:用于推理图像生成的通用基准 / GIR-Bench: Versatile Benchmark for Generating Images with Reasoning
这篇论文提出了一个名为GIR-Bench的基准测试,用于系统评估多模态模型在图像理解与生成之间的一致性、逻辑推理驱动的图像生成以及多步骤图像编辑能力,揭示了当前模型在理解与生成之间仍存在差距。
OverLayBench:面向密集重叠布局的图像生成基准 / OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps
这篇论文提出了一个专门评估图像生成模型在复杂重叠布局下性能的新基准和量化指标,并通过改进模型初步提升了重叠场景的生成质量。
InfGen:一种可扩展图像合成的分辨率无关范式 / InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis
这篇论文提出了一种名为InfGen的新方法,通过将固定大小的潜在表示转换为任意分辨率的图像,显著降低了高分辨率图像生成的计算复杂度和时间,使得生成4K图像的时间从超过100秒缩短到10秒以内,同时无需重新训练现有的扩散模型。