📄 论文总结
OneReward:基于统一奖励模型的多任务图像生成强化学习框架
OneReward: A Unified Reward Model Framework for Multi-Task Image Generation via Reinforcement Learning
1️⃣ 一句话总结
本文提出了一种名为OneReward的统一强化学习框架,使用单一视觉语言模型作为奖励模型,通过多任务强化学习直接优化预训练基础模型,在图像填充、扩展、物体移除和文本渲染等多种图像编辑任务上实现了最先进的性能。
2️⃣ 论文创新点
1. 统一奖励模型框架
- 创新点是什么:使用单一视觉语言模型作为生成奖励模型,能够区分给定任务和评估标准下的优胜者和失败者
- 与已有方法的区别/改进:替代了多任务场景中任务特定的监督微调,提高了训练效率和泛化能力
- 为什么有意义:支持多任务生成模型,适用于不同数据和多样化任务目标,提升了模型统一性和性能
2. 多任务强化学习训练
- 创新点是什么:直接在预训练基础模型上通过多任务强化学习进行训练,无需任务特定的监督微调
- 与已有方法的区别/改进:避免了任务特定微调的限制和低效,增强了模型对多样化编辑场景的适应性
- 为什么有意义:提高了模型在多任务(如图像填充、扩展、物体移除和文本渲染)中的一致高性能
3. 多维度评估框架
- 创新点是什么:针对图像编辑任务设计多维度评估体系,包括文本对齐、美学质量和移除质量等维度
- 与已有方法的区别/改进:克服了传统整体评分的局限性,允许不同维度存在冲突判断
- 为什么有意义:为多目标图像生成任务提供高质量的标注数据基础,支持统一的强化学习训练
3️⃣ 主要结果与价值
实验结果亮点
- 开发的Seedream 3.0 Fill模型在多个评估维度上优于现有商业和开源竞争对手
- 奖励模型在文本对齐(>80%)和移除质量(84.93%)维度表现最佳
- 在包含430张图像的多样式基准测试集上全面评估,涵盖多种场景和艺术风格
实际应用价值
- 建立了统一的图像编辑范式,提高了模型的多任务处理能力和通用性
- 通过部分去噪和单步潜在预测大幅减少计算开销,提升训练效率
- 实现了跨多样化评估标准的平衡改进,提高了生成质量
4️⃣ 术语表
- OneReward:统一的强化学习框架,使用单一奖励模型来增强多任务生成能力,基于视觉语言模型构建
- Seedream 3.0 Fill:基于OneReward开发的掩码引导图像生成模型,通过多任务强化学习训练
- RLHF:基于人类反馈的强化学习,通过人类偏好比较数据训练奖励模型来对齐生成模型的技术
- Flow Matching:通过连续归一化流学习速度向量场,将简单先验分布传输到复杂数据分布的新型生成模型
- 三元组输入格式:(I_src; M; P) 统一输入表示,其中I_src是源图像,M是二进制掩码,P是文本提示
- VLM:视觉语言模型,作为OneReward的主干网络,用于所有维度的奖励预测