arXiv ID:
2605.18646
arXiv 提交日期: 2026-05-18
语言切换触发器在语言模型中的潜在迂回路径 / Language-Switching Triggers Take a Latent Detour Through Language Models
1️⃣ 一句话总结
本研究揭示了一种在大型语言模型中的“后门攻击”机制:通过一个由三个拉丁词组成的触发序列(九个令牌),模型会自动将英文输出切换为法文,这一过程并非直接改变模型的语言识别方向,而是通过注意力头将触发信息汇聚到中间层的一个特定位置,再经过MLP层将其转化为法文输出,从而绕过了基于语言特征的传统防御手段。