arXiv ID:
2605.00123
arXiv 提交日期: 2026-04-30
大型语言模型越狱成功的极简、局部与因果解释 / Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models
1️⃣ 一句话总结
本文提出一种名为LOCA的新方法,能够通过定位并少量修改模型内部的关键表示方向,精准解释为何某个特定的越狱攻击能成功绕过安全限制,从而为理解不同攻击策略的底层机制提供了局部、因果性的分析工具。