← 返回列表

🤖 系统

📄 Abstract - InfGen: A Resolution-Agnostic Image Synthesis Framework

⏳ 正在获取摘要...

📄 论文总结

InfGen：分辨率无关的图像合成框架

InfGen: A Resolution-Agnostic Image Synthesis Framework

1️⃣ 一句话总结

InfGen是一种创新的分辨率无关图像合成框架，通过使用一步生成器替代传统VAE解码器，能够从固定大小的潜在表示生成任意分辨率的图像，显著降低计算复杂度并实现高效的高分辨率图像生成。

2️⃣ 论文创新点

1. 两阶段生成范式

创新点是什么：将图像生成分为内容生成（扩散模型）和分辨率扩展（InfGen）两个独立阶段
与已有方法的区别/改进：避免直接修改扩散模型，通过替换解码器实现任意分辨率输出
为什么有意义：提高推理速度并保持与现有扩散模型的兼容性

2. 一步潜在生成器

创新点是什么：采用基于Transformer的潜在生成器架构，能够从紧凑潜在空间一步生成高分辨率图像
与已有方法的区别/改进：显著降低计算需求，实现高效的高分辨率生成
为什么有意义：解决了超高分辨率生成的高计算成本和延迟问题

3. 即插即用兼容性

创新点是什么：生成器可作为插件升级现有基于VAE的模型，无需重新训练扩散模型
与已有方法的区别/改进：为现有生成模型提供任意分辨率生成能力，兼容DiT、SiT、SD等多种架构
为什么有意义：提高了方法的通用性和实用性，FID指标最高改善44%

4. 隐式神经位置编码(INPE)

创新点是什么：提出动态位置编码方法，通过坐标标准化和转换生成适应不同尺寸mask token的位置编码
与已有方法的区别/改进：解决了传统固定位置编码对输入尺寸的限制，实现了可变数量token的空间信息保持
为什么有意义：支持不同尺寸潜在表示与mask token在交叉注意力中的有效交互，是实现任意分辨率生成的关键

3️⃣ 主要结果与价值

实验结果亮点

在ImageNet-50k和LAION-50k数据集上，图像重建质量优于VQGAN、SD-VAE和SDXL-VAE等对比方法
作为插件替换多种生成模型（DiT-XL/2、SiT-XL/2、MDTv2、FiTv2、SD1.5）的VAE解码器后，在不同潜在空间大小和输出分辨率下均实现显著性能提升
实现4K图像生成仅需7.4秒，比UltraPixel快4倍，比训练免费方法和超分方法快数个数量级

实际应用价值

显著降低高分辨率图像生成的计算成本和时间延迟
为现有生成模型提供无缝的高分辨率升级方案，无需重新训练
推动超高分辨率图像生成的实用化部署进程

4️⃣ 术语表

InfGen：一种分辨率无关的图像合成框架，通过次级生成模型解码低分辨率潜在表示生成任意分辨率的图像
VAE：变分自编码器，用于将图像从像素空间编码到潜在空间，在潜在扩散模型中用于压缩和重建图像
INPE：隐式神经位置嵌入方法，动态生成位置编码以适应不同尺寸的mask token，保持空间信息匹配
FID：FrÉchet Inception Distance，用于评估生成图像质量的指标，值越低表示生成质量越好
潜在空间：紧凑的特征表示空间，InfGen在此空间中操作低分辨率潜在表示以实现多分辨率生成

📄 打开原文 PDF