arXiv ID:
2605.02187
arXiv 提交日期: 2026-05-04
当对齐不足够:针对LLM代理的响应路径攻击 / When Alignment Isn't Enough: Response-Path Attacks on LLM Agents
1️⃣ 一句话总结
本文发现了一个严重的安全漏洞:在使用第三方服务传递大型语言模型(LLM)的回复时,即使模型本身已经被很好地对齐(确保安全),恶意中转方仍然可以在模型生成回答后、交给代理执行前,偷偷修改或替换答复内容,从而实现高成功率(最高99.1%)的攻击;作者将其称为“中继篡改攻击”,并测试了多种防御措施,发现目前仅有一种基于时间的检测方法能在不损害代理功能的情况下有效缓解此威胁。