arXiv ID:
2604.24020
arXiv 提交日期: 2026-04-27
ClawdGo:面向自主人工智能智能体的内生安全意识训练 / Poster: ClawdGo: Endogenous Security Awareness Training for Autonomous AI Agents
1️⃣ 一句话总结
本文提出ClawdGo框架,通过让AI智能体在推理时自主扮演攻击者、防御者和评估者进行自对弈训练,在不修改模型的情况下,大幅提升其识别和应对提示注入、记忆投毒等内部安全威胁的能力,并发现了过度训练可能导致误报正常请求的新问题。