arXiv ID:
2602.09222
arXiv 提交日期: 2026-02-09
MUZZLE:针对间接提示注入攻击的Web智能体自适应对抗性红队测试框架 / MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks
1️⃣ 一句话总结
这篇论文提出了一个名为MUZZLE的自适应自动化框架,用于评估基于大语言模型的网页智能体在面对网页内容中隐藏的恶意指令攻击时的安全性,它能根据智能体的执行轨迹动态调整攻击策略,并在多个实际应用中发现了新的安全漏洞。