arXiv ID:
2512.13687
arXiv 提交日期: 2025-12-15
面向生成任务的可扩展视觉分词器预训练研究 / Towards Scalable Pre-training of Visual Tokenizers for Generation
1️⃣ 一句话总结
这篇论文发现传统视觉分词器(如VAE)的预训练存在‘缩放问题’,即单纯追求像素级重建精度无助于提升生成质量,并提出了一种名为VTP的新框架,通过联合优化多种损失函数来让模型学习高级语义,从而实现了生成性能随计算资源投入的有效提升。