arXiv ID:
2602.22724
arXiv 提交日期: 2026-02-26
AgentSentry:通过时序因果诊断与上下文净化缓解大语言模型智能体中的间接提示注入攻击 / AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification
1️⃣ 一句话总结
这篇论文提出了一种名为AgentSentry的新方法,它通过分析多轮对话中的因果关系并净化被污染的上下文,有效防御了攻击者通过外部工具输出悄悄操控AI智能体的新型安全威胁,在保证正常任务完成的同时大幅提升了受攻击时的系统可用性。