arXiv ID:
2512.07829
arXiv 提交日期: 2025-12-08
一层足矣:将预训练视觉编码器适配用于图像生成 / One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation
1️⃣ 一句话总结
这篇论文提出了一个名为FAE的简单框架,它仅需一个注意力层就能将原本用于图像理解的预训练视觉特征,高效地转换成适合图像生成的低维潜在表示,从而让扩散模型等生成器能快速学习并生成高质量图像。