arXiv ID:
2512.21008
arXiv 提交日期: 2025-12-24
GateBreaker:针对专家混合大语言模型的基于门控的对抗攻击 / GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs
1️⃣ 一句话总结
这篇论文首次提出了一种名为GateBreaker的免训练、轻量级攻击方法,它通过分析并精准关闭专家混合大模型中负责安全防护的少量关键神经元,就能有效绕过多种最新模型的安全对齐机制,使其产生有害内容,揭示了这类模型独特的安全脆弱性。