arXiv ID:
2605.19321
arXiv 提交日期: 2026-05-19
探索并开发基于草稿模型的预模型安全防护机制 / Exploring and Developing a Pre-Model Safeguard with Draft Models
1️⃣ 一句话总结
本文提出了一种新型的安全防护方法,利用小型语言模型作为‘草稿生成器’提前模拟大型模型对恶意提示的反应,从而在不完全运行大型模型的情况下检测和阻止越狱攻击,既降低了判断错误率又节省了计算成本。