🤖 系统
11-30 17:26
📄 论文总结
OneReward:基于多任务人类偏好学习的统一掩码引导图像生成 / OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning
1️⃣ 一句话总结
这篇论文提出了一个名为OneReward的统一强化学习框架,它仅使用一个奖励模型就能提升模型在多种图像编辑任务(如填充、扩展、物体移除和文字渲染)中的生成质量,无需针对每个任务单独训练,并在实验中超越了多个商业和开源竞争对手。