arXiv ID:
2603.03371
arXiv 提交日期: 2026-03-02
休眠细胞:向使用工具的LLMs注入潜在恶意时序后门 / Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs
1️⃣ 一句话总结
这篇论文提出了一种新型的、极其隐蔽的攻击方法,通过分阶段微调技术,可以在保持模型正常功能的同时,向使用外部工具的大语言模型中植入一个‘休眠’后门,该后门仅在特定未来时间等触发条件下才会激活并执行恶意操作,且事后会伪装成正常响应,从而逃避常规安全检查。