arXiv ID:
2512.24138
arXiv 提交日期: 2025-12-30
GARDO:避免奖励黑客的扩散模型强化方法 / GARDO: Reinforcing Diffusion Models without Reward Hacking
1️⃣ 一句话总结
这篇论文提出了一个名为GARDO的新框架,它通过选择性惩罚高不确定性样本、动态更新参考模型以及奖励高质量且多样化的生成结果,有效解决了扩散模型在强化学习微调中常见的奖励黑客、探索不足和模式崩溃问题,从而在不牺牲效率的前提下提升了图像生成的质量和多样性。