arXiv ID:
2605.10764
arXiv 提交日期: 2026-05-11
打破刹车,而非车轮:通过熵最大化的非定向越狱攻击 / Break the Brake, Not the Wheel: Untargeted Jailbreak via Entropy Maximization
1️⃣ 一句话总结
本文提出一种轻量级的非定向越狱方法UJEM-KL,通过最大化模型拒绝回答时刻的高熵标记(相当于“刹车”)来绕过安全限制,同时保持其他部分输出质量,从而在多个视觉语言模型上显著提升跨模型攻击的迁移性。