arXiv ID:
2605.28553
arXiv 提交日期: 2026-05-27
解码前的拒绝:检测并利用大型语言模型中间激活中的拒绝信号 / Refusal Before Decoding: Detecting and Exploiting Refusal Signals in Intermediate LLM Activations
1️⃣ 一句话总结
本研究通过分析大型语言模型在生成回复前的内部神经元活动,发现模型在早期阶段就已经“决定”是否拒绝回答危险问题,并利用这一发现开发了一种更高效的攻击方法,能够显著加快生成有害指令的速度,同时减少计算资源消耗。