arXiv ID:
2606.02521
arXiv 提交日期: 2026-06-01
漂移偏好优化:面向一步生成式模型的对齐方法 / Drifting Preference Optimization for One-Step Generative Models
1️⃣ 一句话总结
本文提出了一种名为DrPO的新方法,通过仅利用奖励模型的排序结果(而非梯度计算)来微调一步式图像生成模型,使其生成结果更符合人类偏好,同时大幅降低了训练计算成本,例如在HPSv3基准上训练速度提升了3.51倍。