📄 论文总结
分数正则化连续时间一致性模型:提升大规模图像和视频生成质量 / Score-Regularized Continuous-time Consistency Models: Enhancing Large-Scale Image and Video Generation Quality
1️⃣ 一句话总结
本研究提出了rCM(分数正则化连续时间一致性模型),通过集成分数蒸馏作为长跳跃正则化器,解决了传统一致性模型在细节生成质量上的限制,实现了在极少数推理步骤下保持高质量和多样性的图像与视频生成。
2️⃣ 论文创新点
1. 分数正则化连续时间一致性模型(rCM)
- 创新点:将分数蒸馏作为长跳跃正则化器集成到连续时间一致性模型中,结合前向和反向生成路径的优势
- 区别/改进:解决了sCM中的误差累积问题,减少了模糊纹理和不稳定几何,提升了生成质量
- 意义:在文本到图像和文本到视频任务中提升了生成稳定性和视觉质量,支持多步采样
2. FlashAttention-2 JVP计算核
- 创新点:开发了并行兼容的JVP计算核,支持大规模模型训练
- 区别/改进:解决了sCM训练中的基础设施挑战,特别是BF16精度下的数值误差问题
- 意义:支持超过100亿参数模型和高维视频任务的训练
3. 稳定时间导数计算
- 创新点:提出半连续时间和高精度时间方法,稳定计算JVP中的时间导数
- 区别/改进:防止训练崩溃,适用于大规模模型和视频任务
- 意义:确保rCM训练的数稳定性,扩展了方法的应用范围
4. 噪声调度适配方法
- 创新点:通过信噪比匹配,将TrigFlow时间映射到教师模型时间,构建包装教师模型
- 区别/改进:解决了sCM与不同噪声调度教师模型之间的兼容性问题
- 意义:提高了模型灵活性和部署效率
3️⃣ 主要结果与价值
结果亮点
- 在Cosmos-Predict2 T2I模型上,rCM在1步和2步采样时表现出色,在GenEval基准上获得有竞争力的总体得分
- 在Wan2.1 T2V模型上,rCM在4步采样时在1.3B和14B参数规模下均获得高质量和语义对齐结果
- 与DMD2相比,rCM在保持高质量的同时展现出明显的多样性优势
- 在4步生成下接近甚至超越教师模型性能,在1-2步极少数步骤下仍保持竞争力
实际价值
- 实现了高质量生成与推理速度的平衡,相比教师模型实现高达50倍加速
- 极提升生成模型的推理效率,使其更适用于实时或资源受限的应用场景
- 形成了统一的生成建模范式,结合前向一致性蒸馏与基于反向梯度的分数蒸馏
4️⃣ 术语表
- sCM:连续时间一致性模型,理论上严谨且经验上强大的扩散加速方法,通过一致性轨迹模型与MeanFlow相关
- rCM:分数正则化连续时间一致性模型,通过分数正则化和DMD损失改进sCM,提升生成质量
- Consistency Models (CMs):学习一致性函数fθ:(xt,t)↦x0的模型,将扩散轨迹上的任意点映射回初始点
- JVP:雅可比-向量积,用于计算函数沿特定方向的导数
- FSDP:完全分片数据并行,一种分布式训练技术
- GenEval:用于评估T2I模型在复杂组合提示(如物体计数、空间关系、属性绑定)上性能的评估基准
- VBench:用于系统评估视频生成模型运动质量和语义对齐的评估基准
- DMD2:一种扩散模型蒸馏基线方法
- Score Distillation:通过匹配学生分布和教师分布来训练生成模型的方法