arXiv ID:
2602.20708
arXiv 提交日期: 2026-02-24
ICON:基于推理时校正的智能体间接提示注入防御框架 / ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction
1️⃣ 一句话总结
本文提出了一种名为ICON的新型防御框架,它能在不中断智能体正常工作流程的前提下,通过探测并修正模型内部注意力机制,有效抵御间接提示注入攻击,在保障安全的同时大幅提升了任务执行效率。