arXiv ID:
2601.03955
arXiv 提交日期: 2026-01-07
ResTok:为自回归图像生成学习一维视觉分词器中的层次化残差 / ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation
1️⃣ 一句话总结
这篇论文提出了一种名为ResTok的新视觉分词器,它通过引入类似视觉模型的层次化残差结构,显著提升了自回归模型生成图像的质量和效率,仅需9步就能在ImageNet-256上达到优异的生成效果。