arXiv ID:
2512.08153
arXiv 提交日期: 2025-12-09
TreeGRPO:用于扩散模型在线强化学习后训练的树形优势GRPO / TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models
1️⃣ 一句话总结
这篇论文提出了一种名为TreeGRPO的新型强化学习方法,它通过将扩散模型的去噪过程构建成一棵搜索树,从而大幅提高了模型根据人类偏好进行训练的效率,实现了更快的训练速度和更好的性能。