arXiv ID:
2606.26479
arXiv 提交日期: 2026-06-25
针对大型语言模型智能体中即时注入攻击的带外防御的适应性评估 / Adaptive Evaluation of Out-of-Band Defenses Against Prompt Injection in LLM Agents
1️⃣ 一句话总结
本文系统梳理了当前用于保护大型语言模型(LLM)智能体免受即时注入攻击的“带外防御”策略,指出所有这些方法目前仅在静态基准上验证、缺乏针对自适应攻击的评估,并通过对开源模型(Qwen2.5-7B)的独立重复实验,初步证明其中一种方法(Progent)在面对简单自适应攻击时仍能有效降低攻击成功率,但尚不能断定带外防御比传统方法更安全。