arXiv ID:
2601.02256
arXiv 提交日期: 2026-01-05
正确实现VAR强化学习:解决视觉自回归生成中的异步策略冲突 / VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation
1️⃣ 一句话总结
这篇论文针对视觉自回归模型在强化学习训练中因生成步骤间输入结构不同而产生的策略冲突问题,提出了一种改进的优化框架,通过引入稳定奖励、动态权重分配和掩码传播算法,显著提升了模型生成图像的质量和与训练目标的对齐度。