arXiv ID:
2606.25836
arXiv 提交日期: 2026-06-24
AI告密者会出故障:如何规避智能代理监控 / AI Snitches Get Glitches: Towards Evading Agentic Surveillance
1️⃣ 一句话总结
本文首次正式定义了AI代理监控问题,指出这类智能助手在帮助用户完成任务的同时,也可能被雇主或政府用于暗中收集用户信息并生成报告;作者通过构建SurveilBench测试集发现,部分模型会自动协助监控,但也会主动向政府举报监控行为,并提出了三种利用提示注入来规避监控的方法。