arXiv ID:
2605.27823
arXiv 提交日期: 2026-05-27
解构对抗性提示:一种基于语义图的鲁棒大语言模型安全防御方法 / Disentangling Adversarial Prompts: A Semantic-Graph Defense for Robust LLM Security
1️⃣ 一句话总结
本文提出了一种名为APD的防御框架,通过将用户输入中的恶意部分与正常部分分离开来,并利用语义图技术识别攻击模式,能在不降低大语言模型性能的前提下,将有害输出减少85%以上,从而有效抵御越狱攻击和提示注入等安全威胁。