← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

📄 论文总结

OneReward：基于统一奖励模型的多任务图像生成强化学习框架

OneReward: A Unified Reward Model Framework for Multi-Task Image Generation via Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种名为OneReward的统一强化学习框架，使用单一视觉语言模型作为奖励模型，通过多任务强化学习直接优化预训练基础模型，在图像填充、扩展、物体移除和文本渲染等多种图像编辑任务上实现了最先进的性能。

2️⃣ 论文创新点

1. 统一奖励模型框架

创新点是什么：使用单一视觉语言模型作为生成奖励模型，能够区分给定任务和评估标准下的优胜者和失败者
与已有方法的区别/改进：替代了多任务场景中任务特定的监督微调，提高了训练效率和泛化能力
为什么有意义：支持多任务生成模型，适用于不同数据和多样化任务目标，提升了模型统一性和性能

2. 多任务强化学习训练

创新点是什么：直接在预训练基础模型上通过多任务强化学习进行训练，无需任务特定的监督微调
与已有方法的区别/改进：避免了任务特定微调的限制和低效，增强了模型对多样化编辑场景的适应性
为什么有意义：提高了模型在多任务（如图像填充、扩展、物体移除和文本渲染）中的一致高性能

3. 多维度评估框架

创新点是什么：针对图像编辑任务设计多维度评估体系，包括文本对齐、美学质量和移除质量等维度
与已有方法的区别/改进：克服了传统整体评分的局限性，允许不同维度存在冲突判断
为什么有意义：为多目标图像生成任务提供高质量的标注数据基础，支持统一的强化学习训练

3️⃣ 主要结果与价值

实验结果亮点

开发的Seedream 3.0 Fill模型在多个评估维度上优于现有商业和开源竞争对手
奖励模型在文本对齐（>80%）和移除质量（84.93%）维度表现最佳
在包含430张图像的多样式基准测试集上全面评估，涵盖多种场景和艺术风格

实际应用价值

建立了统一的图像编辑范式，提高了模型的多任务处理能力和通用性
通过部分去噪和单步潜在预测大幅减少计算开销，提升训练效率
实现了跨多样化评估标准的平衡改进，提高了生成质量

4️⃣ 术语表

OneReward：统一的强化学习框架，使用单一奖励模型来增强多任务生成能力，基于视觉语言模型构建
Seedream 3.0 Fill：基于OneReward开发的掩码引导图像生成模型，通过多任务强化学习训练
RLHF：基于人类反馈的强化学习，通过人类偏好比较数据训练奖励模型来对齐生成模型的技术
Flow Matching：通过连续归一化流学习速度向量场，将简单先验分布传输到复杂数据分布的新型生成模型
三元组输入格式：(I_src; M; P) 统一输入表示，其中I_src是源图像，M是二进制掩码，P是文本提示
VLM：视觉语言模型，作为OneReward的主干网络，用于所有维度的奖励预测

📄 打开原文 PDF