← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
详细标签: adversarial attack preference hijacking multimodal llms security vulnerability dpo optimization 或 搜索:

📄 论文总结

多模态大语言模型的偏好劫持攻击

Preference Hijacking for Multimodal Large Language Models


1️⃣ 一句话总结

本文提出了一种名为偏好劫持(Phi)的新型推理时对抗攻击方法,通过优化图像扰动系统性地操控多模态大语言模型的输出偏好,无需修改模型即可实现隐蔽且上下文相关的偏好控制。


2️⃣ 论文创新点

1. 偏好劫持(Phi)方法

2. 通用劫持扰动技术

3. 基于DPO的优化目标


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF