arXiv ID:
2603.03081
arXiv 提交日期: 2026-03-03
TAO攻击:面向大型语言模型的高级优化越狱攻击 / TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为TAO-Attack的新型优化越狱攻击方法,它通过两阶段损失函数和方向优先的令牌优化策略,有效提升了攻击大型语言模型安全防护的成功率,在某些情况下甚至能达到100%。