逆向流动:通过反向表征对齐改进标准化流模型 / Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
1️⃣ 一句话总结
这篇论文提出了一种通过将标准化流模型生成过程中的中间特征与强大的视觉基础模型表征进行对齐的新方法,从而显著提升了模型的生成质量、分类准确率和训练速度。
请先 登录 后再提交论文
逆向流动:通过反向表征对齐改进标准化流模型 / Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
这篇论文提出了一种通过将标准化流模型生成过程中的中间特征与强大的视觉基础模型表征进行对齐的新方法,从而显著提升了模型的生成质量、分类准确率和训练速度。
PixelDiT:用于图像生成的像素扩散变换器 / PixelDiT: Pixel Diffusion Transformers for Image Generation
这篇论文提出了一种名为PixelDiT的新型图像生成模型,它摒弃了传统两阶段流程中依赖的压缩编码器,直接在原始像素空间进行端到端训练,通过结合全局语义和局部细节的双层变换器设计,在保持图像精细纹理的同时,取得了比以往像素级生成模型更好的效果。
Flash-DMD:通过高效蒸馏与联合强化学习实现高保真少步图像生成 / Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning
这篇论文提出了一种名为Flash-DMD的新框架,它通过一种高效的“时间步感知”蒸馏方法大幅降低了训练成本,并同时结合强化学习进行微调,从而稳定、快速地训练出能用极少步骤生成高质量图像的模型。
让生成模型更直更快:基于修正轨迹的MeanFlow高效一步生成建模 / Flow Straighter and Faster: Efficient One-Step Generative Modeling via MeanFlow on Rectified Trajectories
这篇论文提出了一种名为Rectified MeanFlow的新方法,它通过结合修正轨迹和平均速度建模,只用一次优化步骤就能训练出高质量、高效率的一步生成模型,避免了现有方法需要多次迭代或训练不稳定的问题。
Glance:用1个样本加速扩散模型 / Glance: Accelerating Diffusion Models with 1 Sample
这篇论文提出了一种名为Glance的智能加速方法,它通过为扩散模型的不同生成阶段配备两个轻量级的LoRA适配器(一个用于慢速的语义阶段,一个用于快速的重构阶段),仅需1个样本、1小时即可完成训练,就能实现高达5倍的推理加速,同时保持良好的图像质量和泛化能力。
对抗流模型 / Adversarial Flow Models
这篇论文提出了一种结合对抗训练和流模型优点的全新生成模型,它既能像流模型一样稳定地学习确定性的数据映射,又能像对抗模型一样高效地实现一步或几步生成,在图像生成任务上取得了优异的性能。
TUNA:为原生统一多模态模型驯服统一的视觉表示 / TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models
这篇论文提出了一个名为TUNA的原生统一多模态模型,它通过构建一个统一的连续视觉表示空间,让同一个模型既能理解图像和视频,也能生成和编辑它们,并且在各项任务上都取得了领先的性能。
Z-Image:一种基于单流扩散Transformer的高效图像生成基础模型 / Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
这篇论文提出了一个名为Z-Image的高效开源图像生成模型,它通过创新的单流扩散Transformer架构和全流程优化,仅用6B参数就达到了媲美顶级商业模型的性能,大幅降低了计算成本和硬件门槛。
DiP:在像素空间中驯服扩散模型 / DiP: Taming Diffusion Models in Pixel Space
这篇论文提出了一种名为DiP的新型高效像素空间扩散模型框架,它通过将图像生成过程分解为全局结构构建和局部细节修复两个协同阶段,在无需依赖压缩编码器的情况下,实现了与潜在扩散模型相当的生成质量和计算效率,显著提升了高分辨率图像合成的速度。
架构解耦并非统一多模态模型的全部答案 / Architecture Decoupling Is Not All You Need For Unified Multimodal Model
这篇论文提出了一种名为‘注意力交互对齐’的新方法,它通过直接学习任务特定的多模态交互模式,在不拆分模型结构的情况下,有效缓解了统一多模态模型中理解与生成任务的内在冲突,从而同时提升了模型的生成和理解能力。