arXiv ID:
2605.17971
arXiv 提交日期: 2026-05-18
巴别塔:通过混淆分布优化采样突破安全注意力机制 / Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling
1️⃣ 一句话总结
本文发现大型语言模型的安全机制仅依赖少量稀疏分布的注意力头,存在监控盲区,据此提出一种名为Babel的黑盒攻击方法,通过迭代优化文本混淆分布,能够在仅需约40次查询的情况下,将GPT-4o和Claude-3-5-haiku等前沿模型的攻击成功率提升至80%左右,显著优于现有方法。