arXiv ID:
2604.24082
arXiv 提交日期: 2026-04-27
通过意图欺骗突破前沿基础模型的防御 / Jailbreaking Frontier Foundation Models Through Intention Deception
1️⃣ 一句话总结
本文提出一种多轮对话式的攻击方法,通过逐步伪装成善意用户并利用模型的一致性特性,成功诱导前沿AI模型(如GPT-5和Claude-Sonnet-4.5)输出有害信息,并首次揭示了一种此前被忽视的“准越狱”漏洞——模型虽未直接回答恶意问题,但其给出的间接信息仍然具有危害性。