🤖 系统
11-30 17:50
📄 论文总结
扩散-SDPO:扩散模型的安全直接偏好优化 / Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models
1️⃣ 一句话总结
本文提出了一种名为Diffusion-SDPO的新方法,通过自适应调整优化过程中的梯度更新,解决了现有扩散模型在偏好学习时可能导致图像质量下降的问题,从而在保持简单高效的同时,显著提升了生成图像与人类偏好的对齐效果。