📄 论文总结
多模态大语言模型的偏好劫持攻击
Preference Hijacking for Multimodal Large Language Models
1️⃣ 一句话总结
本文提出了一种名为偏好劫持(Phi)的新型推理时对抗攻击方法,通过优化图像扰动系统性地操控多模态大语言模型的输出偏好,无需修改模型即可实现隐蔽且上下文相关的偏好控制。
2️⃣ 论文创新点
1. 偏好劫持(Phi)方法
- 创新点是什么:一种在推理时通过优化图像输入来操控MLLM输出偏好的对抗攻击技术,无需修改模型架构或进行微调
- 与已有方法的区别/改进:相比传统的固定响应注入或恶意指令注入,Phi能生成上下文相关但带有偏见的响应,保持输出的语义连贯性
- 为什么有意义:揭示了MLLMs新的安全漏洞,能够控制系统地影响模型意见、改变个性感知和诱导幻觉生成
2. 通用劫持扰动技术
- 创新点是什么:可迁移的扰动组件,可嵌入不同图像中将MLLM响应导向攻击者指定的偏好
- 与已有方法的区别/改进:具有跨图像的迁移能力,显著降低了攻击成本并扩大了适用性
- 为什么有意义:增强了攻击的实用性和传播性,可能影响用户决策和造成现实风险
3. 基于DPO的优化目标
- 创新点是什么:采用直接偏好优化(DPO)技术构建优化目标,通过对比样本来强化目标偏好响应概率
- 与已有方法的区别/改进:仅需单个模型即可优化可学习的劫持扰动,而不需要DPO中的策略模型和参考模型
- 为什么有意义:确保劫持扰动有效捕获和强化目标偏好,同时保持攻击的隐蔽性
3️⃣ 主要结果与价值
实验结果亮点
- 在LLaVA-1.5、Llama-3.2和Qwen2.5-VL等多个模型上验证有效,证明了跨模型通用性
- 在多项选择准确率(MC)和偏好得分(P-Score)指标上显著优于System Prompt和Image Hijacks基线方法
- 成功操控了财富追求、权力追求、幻觉生成、负面评价等多种偏好类型
实际应用价值
- 为MLLM安全性评估提供了新的测试框架和基准
- 揭示了现有对齐机制的局限性,推动了更强大的防御机制开发
- 对实际部署中的MLLM安全伦理保障具有重要警示意义
4️⃣ 术语表
- MLLMs:多模态大语言模型(Multimodal Large Language Models),能够处理和理解图像、文本等多种模态输入的大型语言模型
- Preference Hijacking (Phi):偏好劫持,通过优化图像扰动在推理时操控多模态大语言模型输出偏好的攻击方法
- DPO:直接偏好优化(Direct Preference Optimization),一种通过对比样本优化模型输出偏好的技术
- Universal Hijacking Perturbations:通用劫持扰动,可跨不同图像迁移的扰动模式,用于实现对模型偏好的通用控制
- P-Score:偏好得分,用于评估攻击方法成功劫持模型偏好的程度,分数越高表示攻击效果越好
- MC Accuracy:多项选择准确率,用于衡量攻击方法在改变模型行为方面的有效性