arXiv ID:
2510.08425
arXiv 提交日期: 2025-10-09
通过直接群体偏好优化强化扩散模型 / Reinforcing Diffusion Models by Direct Group Preference Optimization
1️⃣ 一句话总结
本文提出了一种名为DGPO的新强化学习算法,它绕过了传统依赖低效随机策略的方法,允许直接使用高效的确定性采样器,从而在扩散模型训练中实现了约20倍的加速并提升了性能。