📄 论文总结
基于表征自编码器的扩散模型 / Representation Autoencoders for Diffusion Models
1️⃣ 一句话总结
本文提出了一种使用预训练表征编码器替代传统VAE的表征自编码器(RAE),结合优化的扩散Transformer架构(DiT [DH]),显著提升了图像生成质量和训练效率。
2️⃣ 论文创新点
1. 表征自编码器(RAE)
- 创新点:使用冻结的预训练表征编码器(如DINO、MAE、SigLIP)与轻量级解码器结合,替代传统VAE构建自编码器
- 区别/改进:解决了VAE的过时架构、低维潜在空间和弱表征问题,提供高容量语义潜在空间
- 意义:成为扩散Transformer训练的新标准,实现更快收敛和更高生成质量
2. DiT [DH]架构
- 创新点:在标准DiT基础上增加宽而浅的Transformer头(DDT头)的增强架构
- 区别/改进:显著提升计算效率,DiT [DH]-B仅需约40%训练计算量即可超越DiT-XL性能
- 意义:高效处理高维RAE潜在空间,在不同RAE编码器规模下均保持性能优势
3. 维度依赖噪声调度
- 创新点:将先前分辨率依赖的噪声调度策略推广到有效数据维度(token数量×维度)
- 区别/改进:根据输入维度调整时间步长,采用Esser等人的偏置策略
- 意义:在高维RAE潜在空间中训练扩散模型时带来显著性能提升
3️⃣ 主要结果与价值
结果亮点
- 在ImageNet 256×256分辨率上,DiT [DH]-XL模型使用RAE潜在表示,无引导FID达到1.51,有引导FID达到1.13,显著优于所有基线方法
- RAE在图像重建质量上超越SD-VAE,MAE-B/16编码器达到rFID 0.16
- DiT [DH]架构在不同规模(S、B、XL)下均表现优异,展现良好的可扩展性
实际价值
- 为高分辨率图像生成提供高效解决方案,通过解码器与编码器patch大小解耦处理分辨率缩放
- 计算效率显著提升,小模型DiT [DH]-S的FID为6.07,已优于更大的REPA-XL模型
- 无需辅助对齐损失或调优复杂性即可实现高质量生成
4️⃣ 术语表
- RAE:表征自编码器,使用冻结的预训练表征编码器和ViT解码器进行图像重建的模型
- DiT:扩散Transformer,基于Transformer的扩散模型
- DiT [DH]:增强的DiT架构,带有宽DDT头,用于高效处理RAE潜在表示
- DDT Head:浅而宽的Transformer模块,专门用于去噪,附加在基础DiT模型上
- FID:FrÉchet Inception距离,用于评估生成图像质量的指标,数值越低表示生成图像与真实图像分布越接近
- rFID:重建FID指标,在重建的ImageNet验证集上计算的FID分数,作为重建质量的主要指标
- 有效数据维度:token数量乘以它们的维度,用于推广分辨率依赖策略