arXiv ID:
2604.04142
OP-GRPO:面向流匹配模型的高效离策略GRPO方法 / OP-GRPO: Efficient Off-Policy GRPO for Flow-Matching Models
1️⃣ 一句话总结
这篇论文提出了一种名为OP-GRPO的新方法,它通过引入离策略训练、高质量样本重用和分布偏移校正技术,大幅提升了流匹配模型(用于图像和视频生成)的训练效率,在保持生成质量的同时,平均只需原来约三分之一的训练步骤即可达到同等或更好的效果。