arXiv ID:
2606.29441
arXiv 提交日期: 2026-06-28
关闭激活锥形盲区:响应时间探测与统一防御 / Closing the Activation-Cone Blind Spot: Response-Time Probing and Unified Defense
1️⃣ 一句话总结
这篇论文发现现有的提示时激活防御方法对预填充攻击存在结构性盲区,并提出了一种在模型生成首个token时通过线性探针检测恶意行为的响应时间防御策略,将其与AlphaSteer结合后,能在不误伤正常回答的情况下,对所有七种模型将预填充攻击成功率降至0。