2510.08431 – Summary

📄 Abstract - Score-Regularized Continuous-time Consistency Models: Enhancing Large-Scale Image and Video Generation Quality

⏳ 正在获取摘要...

📄 论文总结

分数正则化连续时间一致性模型：提升大规模图像和视频生成质量 / Score-Regularized Continuous-time Consistency Models: Enhancing Large-Scale Image and Video Generation Quality

1️⃣ 一句话总结

本研究提出了rCM（分数正则化连续时间一致性模型），通过集成分数蒸馏作为长跳跃正则化器，解决了传统一致性模型在细节生成质量上的限制，实现了在极少数推理步骤下保持高质量和多样性的图像与视频生成。

2️⃣ 论文创新点

1. 分数正则化连续时间一致性模型(rCM)

创新点：将分数蒸馏作为长跳跃正则化器集成到连续时间一致性模型中，结合前向和反向生成路径的优势
区别/改进：解决了sCM中的误差累积问题，减少了模糊纹理和不稳定几何，提升了生成质量
意义：在文本到图像和文本到视频任务中提升了生成稳定性和视觉质量，支持多步采样

2. FlashAttention-2 JVP计算核

创新点：开发了并行兼容的JVP计算核，支持大规模模型训练
区别/改进：解决了sCM训练中的基础设施挑战，特别是BF16精度下的数值误差问题
意义：支持超过100亿参数模型和高维视频任务的训练

3. 稳定时间导数计算

创新点：提出半连续时间和高精度时间方法，稳定计算JVP中的时间导数
区别/改进：防止训练崩溃，适用于大规模模型和视频任务
意义：确保rCM训练的数稳定性，扩展了方法的应用范围

4. 噪声调度适配方法

创新点：通过信噪比匹配，将TrigFlow时间映射到教师模型时间，构建包装教师模型
区别/改进：解决了sCM与不同噪声调度教师模型之间的兼容性问题
意义：提高了模型灵活性和部署效率

3️⃣ 主要结果与价值

结果亮点

在Cosmos-Predict2 T2I模型上，rCM在1步和2步采样时表现出色，在GenEval基准上获得有竞争力的总体得分
在Wan2.1 T2V模型上，rCM在4步采样时在1.3B和14B参数规模下均获得高质量和语义对齐结果
与DMD2相比，rCM在保持高质量的同时展现出明显的多样性优势
在4步生成下接近甚至超越教师模型性能，在1-2步极少数步骤下仍保持竞争力

实际价值

实现了高质量生成与推理速度的平衡，相比教师模型实现高达50倍加速
极提升生成模型的推理效率，使其更适用于实时或资源受限的应用场景
形成了统一的生成建模范式，结合前向一致性蒸馏与基于反向梯度的分数蒸馏

4️⃣ 术语表

sCM：连续时间一致性模型，理论上严谨且经验上强大的扩散加速方法，通过一致性轨迹模型与MeanFlow相关
rCM：分数正则化连续时间一致性模型，通过分数正则化和DMD损失改进sCM，提升生成质量
Consistency Models (CMs)：学习一致性函数fθ:(xt,t)↦x0的模型，将扩散轨迹上的任意点映射回初始点
JVP：雅可比-向量积，用于计算函数沿特定方向的导数
FSDP：完全分片数据并行，一种分布式训练技术
GenEval：用于评估T2I模型在复杂组合提示（如物体计数、空间关系、属性绑定）上性能的评估基准
VBench：用于系统评估视频生成模型运动质量和语义对齐的评估基准
DMD2：一种扩散模型蒸馏基线方法
Score Distillation：通过匹配学生分布和教师分布来训练生成模型的方法

← 返回列表

菜单

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 分数正则化连续时间一致性模型(rCM)

2. FlashAttention-2 JVP计算核

3. 稳定时间导数计算

4. 噪声调度适配方法

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 分数正则化连续时间一致性模型(rCM)

2. FlashAttention-2 JVP计算核

3. 稳定时间导数计算

4. 噪声调度适配方法

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要