arXiv ID:
2512.03771
arXiv 提交日期: 2025-12-03
上下文表示劫持 / In-Context Representation Hijacking
1️⃣ 一句话总结
这篇论文提出了一种名为‘Doublespeak’的简单攻击方法,通过在多轮对话示例中系统性地将有害词汇(如‘炸弹’)替换为无害词汇(如‘胡萝卜’),使得大语言模型在内部将无害词汇的语义理解为有害内容,从而绕过模型的安全防护机制。