arXiv ID:
2603.28817
arXiv 提交日期: 2026-03-28
GUARD-SLM:基于令牌激活的防御方法,用于保护小型语言模型免受越狱攻击 / GUARD-SLM: Token Activation-Based Defense Against Jailbreak Attacks for Small Language Models
1️⃣ 一句话总结
这项研究发现小型语言模型容易受到恶意提示攻击,并提出了一种名为GUARD-SLM的轻量级防御方法,通过分析模型内部激活模式来实时过滤有害输入,从而保障模型安全部署。