arXiv ID:
2606.03785
arXiv 提交日期: 2026-06-02
后门遗忘的泛化:通往消除大语言模型中未知触发器的路径 / Backdoor Unlearning Generalization: A Path Toward the Removal of Unknown Triggers in LLMs
1️⃣ 一句话总结
本文发现,在大型语言模型中,通过训练模型遗忘某一个已知的后门触发器,可以连带抑制其他从未被明确处理过的未知后门,从而为防御者提供了一种利用可控后门来批量清除潜在攻击后门的新思路。