arXiv ID:
2602.10504
arXiv 提交日期: 2026-02-11
论知识编辑去毒方法的鲁棒性 / On the Robustness of Knowledge Editing for Detoxification
1️⃣ 一句话总结
这篇论文研究发现,基于知识编辑的大语言模型去毒方法存在局限性,其有效性仅在特定模型、少量目标语言和有限编辑目标下才可靠,否则可能出现‘虚假去毒’或效果下降的问题。