arXiv ID:
2607.01859
arXiv 提交日期: 2026-07-02
通过微调实现安全目标导向的嵌入攻击 / Safety Targeted Embedding Exploit via Refinement
1️⃣ 一句话总结
该研究提出了一种名为STEER的攻击方法,通过将模型拒绝回答安全问题的关键词语逐步翻译成低资源语言,成功绕过了大语言模型的安全防护,揭示出当前安全训练主要依赖英语、对多语言输入存在严重漏洞的问题。