🤖 系统
09-01 15:51
📄 论文总结
基于成对偏好奖励的稳定文本到图像强化学习方法与统一生成基准
PREF-GRPO: Stable Text-to-Image Reinforcement Learning via Pairwise Preference Rewards and Unified Generation Benchmark
1️⃣ 一句话总结
本研究提出了PREF-GRPO方法,通过成对偏好奖励解决文本到图像生成中的奖励黑客问题,并建立了UNIGENBENCH基准进行细粒度评估,显著提升了生成质量和语义一致性。
2️⃣ 论文创新点
1. PREF-GRPO方法
- 创新点是什么:首个基于成对偏好奖励的GRPO方法,将优化目标从传统绝对奖励分数最大化重新表述为成对偏好拟合
- 与已有方法的区别/改进:使用偏好奖励模型计算图像对的胜率作为奖励信号,替代点式分数归一化,避免虚幻优势
- 为什么有意义:有效区分图像质量细微差异,提供更稳定优化信号,缓解奖励黑客问题,稳定生成过程
2. UNIGENBENCH基准
- 创新点是什么:统一的文本到图像生成评估基准,涵盖全面的评估维度和多样化提示主题
- 与已有方法的区别/改进:在现有基准仅提供主维度粗粒度评估基础上,进一步细分为子维度测试点
- 为什么有意义:提供更精细的模型评估,揭示模型在需要逻辑推理的提示上表现不佳的问题
3. MLLM自动化评估管道
- 创新点是什么:基于多模态大语言模型的自动化流程,用于大规模提示生成和细粒度T2I评估
- 与已有方法的区别/改进:无需昂贵人工标注,确保基准构建和模型评估的效率和可靠性
- 为什么有意义:实现可扩展和可靠的基准操作,支持多维度性能比较
3️⃣ 主要结果与价值
实验结果亮点
- PREF-GRPO在UNIGENBENCH上相比UR-based方法整体得分提升5.84%
- 在文本和逻辑推理方面分别提升12.69%和12.04%
- 在图像质量评估中也取得全面优势
- 有效缓解了奖励黑客问题,而现有方法如HPS和UR存在不同程度的过饱和或过暗等奖励破解现象
实际应用价值
- 为文本到图像生成提供了更稳定的强化学习训练范式
- 建立了全面可靠的评估标准,支持模型性能的多维度分析
- 自动化评估流程降低了人工评估成本,提高了评估效率
- 推动了文本到图像生成领域的强化学习发展和模型性能提升
4️⃣ 术语表
- PREF-GRPO:基于成对偏好奖励的群体策略优化方法,用于稳定的文本到图像强化学习,通过偏好拟合优化策略
- 奖励黑客:奖励分数增加但图像质量下降的现象,由点式奖励模型的微小分数差异导致
- 虚幻优势:点式奖励模型给可比图像分配过于相似的奖励分数,导致归一化优势被过度放大的现象
- UNIGENBENCH:统一的图像生成基准,涵盖广泛提示和评估标准,用于全面评估文本到图像模型
- GRPO:基于分组奖励策略优化的方法,用于文本到图像生成
- Flow Matching:通过训练速度场来匹配数据分布和噪声分布之间流的生成模型方法