← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

📄 论文总结

基于成对偏好奖励的稳定文本到图像强化学习方法与统一生成基准

PREF-GRPO: Stable Text-to-Image Reinforcement Learning via Pairwise Preference Rewards and Unified Generation Benchmark

1️⃣ 一句话总结

本研究提出了PREF-GRPO方法，通过成对偏好奖励解决文本到图像生成中的奖励黑客问题，并建立了UNIGENBENCH基准进行细粒度评估，显著提升了生成质量和语义一致性。

2️⃣ 论文创新点

1. PREF-GRPO方法

创新点是什么：首个基于成对偏好奖励的GRPO方法，将优化目标从传统绝对奖励分数最大化重新表述为成对偏好拟合
与已有方法的区别/改进：使用偏好奖励模型计算图像对的胜率作为奖励信号，替代点式分数归一化，避免虚幻优势
为什么有意义：有效区分图像质量细微差异，提供更稳定优化信号，缓解奖励黑客问题，稳定生成过程

2. UNIGENBENCH基准

创新点是什么：统一的文本到图像生成评估基准，涵盖全面的评估维度和多样化提示主题
与已有方法的区别/改进：在现有基准仅提供主维度粗粒度评估基础上，进一步细分为子维度测试点
为什么有意义：提供更精细的模型评估，揭示模型在需要逻辑推理的提示上表现不佳的问题

3. MLLM自动化评估管道

创新点是什么：基于多模态大语言模型的自动化流程，用于大规模提示生成和细粒度T2I评估
与已有方法的区别/改进：无需昂贵人工标注，确保基准构建和模型评估的效率和可靠性
为什么有意义：实现可扩展和可靠的基准操作，支持多维度性能比较

3️⃣ 主要结果与价值

实验结果亮点

PREF-GRPO在UNIGENBENCH上相比UR-based方法整体得分提升5.84%
在文本和逻辑推理方面分别提升12.69%和12.04%
在图像质量评估中也取得全面优势
有效缓解了奖励黑客问题，而现有方法如HPS和UR存在不同程度的过饱和或过暗等奖励破解现象

实际应用价值

为文本到图像生成提供了更稳定的强化学习训练范式
建立了全面可靠的评估标准，支持模型性能的多维度分析
自动化评估流程降低了人工评估成本，提高了评估效率
推动了文本到图像生成领域的强化学习发展和模型性能提升

4️⃣ 术语表

PREF-GRPO：基于成对偏好奖励的群体策略优化方法，用于稳定的文本到图像强化学习，通过偏好拟合优化策略
奖励黑客：奖励分数增加但图像质量下降的现象，由点式奖励模型的微小分数差异导致
虚幻优势：点式奖励模型给可比图像分配过于相似的奖励分数，导致归一化优势被过度放大的现象
UNIGENBENCH：统一的图像生成基准，涵盖广泛提示和评估标准，用于全面评估文本到图像模型
GRPO：基于分组奖励策略优化的方法，用于文本到图像生成
Flow Matching：通过训练速度场来匹配数据分布和噪声分布之间流的生成模型方法

📄 打开原文 PDF