← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: systems

📄 论文总结

中英文论文题目：
Personalized Safety Alignment for Text-to-Image Diffusion Models
文本到图像扩散模型的个性化安全对齐

1️⃣ 一句话总结

这篇论文提出了个性化安全对齐（PSA）框架，通过整合用户配置文件（如年龄、文化背景等）动态调整文本到图像扩散模型的安全过滤行为，解决了传统全局安全机制无法满足个性化需求的问题，并在抑制有害内容和保持生成质量上显著优于现有方法。

2️⃣ 论文创新点

1. 个性化安全对齐（PSA）框架

创新点：首次将用户个性化偏好（如心理健康、文化敏感度）融入扩散模型的安全对齐过程，通过轻量级适配器动态调整安全边界。
改进：传统方法（如SafetyDPO）采用统一安全标准，而PSA通过用户嵌入（user embedding）实现细粒度控制，支持“需移除概念集（(C_{rm}(u))）”和“可容忍概念集（(C_{rt}(u))）”的灵活定义。
意义：适应多元用户需求（如医疗教育需解剖图像，而儿童内容需严格过滤），提升模型的实际可用性。

2. Sage数据集

创新点：首个专注于个性化安全训练的文本到图像数据集，包含10类安全敏感概念、800+有害提示词及高分辨率图像（1024×1024）。
改进：现有数据集（如SafeLatent）缺乏用户偏好标注，Sage通过虚拟用户生成和LLM推断构建语义连贯的偏好聚类。
意义：为个性化安全研究提供基准，支持跨文化、跨场景的模型评估。

3. 扩散模型偏好优化（Diffusion-DPO）

创新点：将直接偏好优化（DPO）适配到扩散模型，通过信号-噪声比加权（(ω(λ_t))）解决扩散过程缺乏显式似然的问题。
改进：传统DPO仅适用于语言模型，Diffusion-DPO通过去噪差异（∆）捕捉用户偏好，并扩展为多用户联合优化（Personalized Diffusion DPO）。
意义：为扩散模型提供高效、可解释的对齐方法，避免强化学习的复杂奖励建模。

4. 渐进式安全抑制（L1-L5层级）

创新点：通过多级安全约束（从宽松到严格）平衡生成质量与安全性，适配不同应用场景（如社交媒体vs.教育）。
改进：静态方法（如UCE）需重新训练模型，PSA仅需调整轻量级并行注意力分支，保留预训练知识。
意义：实现模型部署时的动态安全策略切换，提升可控性。

3️⃣ 主要结果与价值

实验结果亮点

安全性：在SD v1.5和SDXL上，PSA将有害内容生成概率（IP分数）降低至基线方法的1/3，同时保持FID（图像质量）和CLIP分数（语义对齐）接近原始模型。
个性化效果：用户偏好匹配度（Pass Rate）达64.29%，Win Rate超过ESD-u、SafetyDPO等基线20%以上。
泛化性：在未见用户数据上，PSA仍能保持54%的Pass Rate，优于全局对齐方法（如SafetyDPO的32%）。

实际应用价值

跨领域适配：适用于医疗（解剖图像生成）、教育（适龄内容）、社交平台（文化敏感内容过滤）等场景。
可部署性：轻量级适配器设计（仅新增0.1%参数）支持低成本微调，兼容现有扩散模型（如Stable Diffusion系列）。
政策合规：动态安全层级（L1-L5）帮助开发者满足不同地区的监管要求（如欧盟DSA法案）。

4️⃣ 术语表

PSA（Personalized Safety Alignment）：个性化安全对齐框架，通过用户配置文件动态调整模型安全行为。
Sage Dataset：支持个性化安全训练的数据集，含用户偏好标注的高分辨率图像和提示词。
DPO（Direct Preference Optimization）：直接偏好优化框架，通过人类偏好数据对齐模型输出。
Diffusion-DPO：DPO的扩散模型变体，利用去噪差异捕捉偏好。
(C_{rm}(u)/C_{rt}(u))：用户u的需移除概念集和可容忍概念集，定义个性化安全边界。
IP分数（Inappropriate Probability）：量化有害内容生成概率的指标。
Pass Rate/Win Rate：基于GPT-4.1-mini的自动评估指标，衡量用户偏好匹配度。
SDXL（Stable Diffusion XL）：高性能文本到图像生成模型骨干网络。

📄 打开原文 PDF