arXiv ID:
2512.19680
arXiv 提交日期: 2025-12-22
VA-π:一种用于像素感知自回归生成的变分策略对齐方法 / VA-$π$: Variational Policy Alignment for Pixel-Aware Autoregressive Generation
1️⃣ 一句话总结
这篇论文提出了一种名为VA-π的轻量级后训练框架,通过将自回归图像生成模型视为一个策略,并直接使用像素空间的重建质量作为奖励来优化它,从而有效解决了现有方法中图像编码器与生成器目标不一致导致图像质量下降的问题,仅需极少数据和极短时间就能显著提升生成图像的逼真度和多样性。