逆向流动:通过反向表征对齐改进标准化流模型 / Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
1️⃣ 一句话总结
这篇论文提出了一种通过将标准化流模型生成过程中的中间特征与强大的视觉基础模型表征进行对齐的新方法,从而显著提升了模型的生成质量、分类准确率和训练速度。
请先 登录 后再提交论文
逆向流动:通过反向表征对齐改进标准化流模型 / Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
这篇论文提出了一种通过将标准化流模型生成过程中的中间特征与强大的视觉基础模型表征进行对齐的新方法,从而显著提升了模型的生成质量、分类准确率和训练速度。
BlurDM:一种用于图像去模糊的模糊扩散模型 / BlurDM: A Blur Diffusion Model for Image Deblurring
这篇论文提出了一种名为BlurDM的新模型,它巧妙地将图像模糊的形成过程融入到扩散模型中,通过同时去噪和去模糊的方式,有效提升了现有图像去模糊方法的性能。
基于3D点轨迹的生成式视频运动编辑 / Generative Video Motion Editing with 3D Point Tracks
这篇论文提出了一种新的视频编辑方法,通过利用3D点轨迹来精确控制视频中相机和物体的复杂运动,解决了现有方法难以保持场景一致性和处理精细动作的难题。
对抗流模型 / Adversarial Flow Models
这篇论文提出了一种结合对抗训练和流模型优点的全新生成模型,它既能像流模型一样稳定地学习确定性的数据映射,又能像对抗模型一样高效地实现一步或几步生成,在图像生成任务上取得了优异的性能。
MIRO:多奖励条件预训练提升文本到图像生成的质量与效率 / MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency
这项研究提出了一种名为MIRO的新方法,通过在训练过程中让模型同时学习多个用户偏好奖励,直接提升文本生成图像的质量和训练效率,避免了传统后处理方式对多样性和语义准确性的损害。
从掩码模型到世界构建:一份世界模型构建指南 / From Masks to Worlds: A Hitchhiker's Guide to World Models
这篇论文为构建世界模型提供了一条清晰的实践路径,从跨模态的掩码预训练模型出发,经过统一架构、交互式生成模型,最终发展为具有长期记忆的系统,以实现持续一致的世界模拟。
pi-Flow:通过模仿蒸馏实现基于策略的少步生成 / pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation
这篇论文提出了一种名为pi-Flow的新方法,通过让模型学习一个简单策略来模仿教师模型的生成路径,从而在保持图像质量的同时用更少的步骤生成多样化的图像,解决了现有方法在质量和多样性之间的权衡问题。
过渡模型:重新思考生成式学习目标 / Transition Models: Rethinking the Generative Learning Objective
这篇论文提出了一种名为过渡模型(TiM)的新生成式AI方法,它通过一个灵活的连续时间动态方程,能够在任意生成步数下高效工作,仅用8.65亿参数就在图像质量和分辨率上超越了参数量大得多的主流模型,并且生成质量会随着步数增加稳定提升。
基于离散噪声反演的下一代自回归文本图像编辑方法 / Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing
本文提出了一种名为VARIN的创新图像编辑技术,它通过逆向生成特定噪声,让自回归视觉模型能够仅根据文字提示精确修改图片内容,同时完美保留原始背景和结构细节,无需额外训练即可实现高效编辑。
OpenVision 2:面向多模态学习的生成式预训练视觉编码器家族 / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning
这篇论文提出了一个简化的视觉编码器OpenVision 2,它通过移除文本编码器和对比损失、仅保留生成式训练方法,在保持多模态任务性能的同时,显著提升了训练效率并降低了资源消耗。