arXiv ID:
2602.10382
arXiv 提交日期: 2026-02-11
触发器劫持语言回路:对大语言模型中后门行为的机制分析 / Triggers Hijack Language Circuits: A Mechanistic Analysis of Backdoor Behaviors in Large Language Models
1️⃣ 一句话总结
这篇论文通过机制分析发现,大语言模型中的后门攻击并非创建独立回路,而是通过劫持模型原有的语言控制功能(如输出语言切换)来实现恶意行为,这为通过监控已知功能组件来检测和防御后门提供了新思路。