上下文表示劫持 / In-Context Representation Hijacking
1️⃣ 一句话总结
这篇论文提出了一种名为‘Doublespeak’的简单攻击方法,通过在多轮对话示例中系统性地将有害词汇(如‘炸弹’)替换为无害词汇(如‘胡萝卜’),使得大语言模型在内部将无害词汇的语义理解为有害内容,从而绕过模型的安全防护机制。
请先 登录 后再提交论文
上下文表示劫持 / In-Context Representation Hijacking
这篇论文提出了一种名为‘Doublespeak’的简单攻击方法,通过在多轮对话示例中系统性地将有害词汇(如‘炸弹’)替换为无害词汇(如‘胡萝卜’),使得大语言模型在内部将无害词汇的语义理解为有害内容,从而绕过模型的安全防护机制。
探究大型音频语言模型在说话者情绪变化下的安全漏洞 / Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations
这项研究发现,大型音频语言模型在面对不同情绪和强度的语音指令时,会产生不一致的安全反应,其中中等强度的情绪表达风险最高,揭示了模型在真实场景中部署的安全隐患。
对齐华尔兹:联合训练智能体协作实现安全性 / The Alignment Waltz: Jointly Training Agents to Collaborate for Safety
这篇论文提出了一种名为WaltzRL的新方法,通过让对话智能体和反馈智能体协同训练,共同提升大语言模型的安全性,既减少了有害内容的生成,也避免了过度拒绝正常请求的问题。
扭转咒语:通过一阶安全注入实现轻量级对齐增强 / Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
这篇论文提出了一种无需微调的白盒方法ROSI,通过简单修改模型权重来增强大语言模型的安全拒绝能力,同时保持其正常任务性能,为低成本提升AI安全性提供了新思路。
大语言模型中的说服动态:基于DuET-PD框架探究知识与安全维度的鲁棒性与适应性 / Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD
本研究提出DuET-PD评估框架,揭示大语言模型在对话中易受误导信息影响且难以接受正确修正的问题,并通过新型训练方法显著提升了模型对错误信息的抵抗力和对正确信息的接受度。