arXiv ID:
2511.23386
arXiv 提交日期: 2025-11-28
VQRAE:用于多模态理解、生成与重建的表征量化自编码器 / VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction
1️⃣ 一句话总结
这篇论文提出了一个名为VQRAE的新型统一模型,它能够在一个框架内同时处理图像的理解、生成和精细重建任务,其核心创新在于使用一个高维语义编码本将连续语义特征和离散生成令牌统一起来。