arXiv ID:
2508.20751
Pref-GRPO:基于成对偏好奖励的GRPO用于稳定文本到图像强化学习 / Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
1️⃣ 一句话总结
本研究提出了一种名为Pref-GRPO的新方法,通过比较图像对的偏好来替代传统评分机制,有效防止强化学习训练中的奖励作弊问题,并引入了一个更精细的评估基准UniGenBench来全面衡量文本生成图像模型的表现。