arXiv ID:
2512.11749
arXiv 提交日期: 2025-12-12
SVG-T2I:无需变分自编码器即可扩展文本到图像的潜在扩散模型 / SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder
1️⃣ 一句话总结
这篇论文提出了一个名为SVG-T2I的新方法,它绕过了传统变分自编码器,直接在视觉基础模型的表示空间里训练大型文本生成图像模型,并取得了与现有方法相当的高质量生成效果。