arXiv ID:
2603.17372
arXiv 提交日期: 2026-03-18
理解与防御视觉语言模型的越狱攻击:基于越狱相关表征偏移的分析 / Understanding and Defending VLM Jailbreaks via Jailbreak-Related Representation Shift
1️⃣ 一句话总结
这篇论文发现,视觉语言模型之所以容易被图片诱导产生有害回复,不是因为模型识别不出有害意图,而是因为视觉输入会将模型的内部表征推向一个特定的‘越狱状态’,从而绕过安全机制;基于此,作者提出了一种通过移除这种‘越狱相关偏移’来有效防御攻击的方法。