arXiv ID:
2601.01887
arXiv 提交日期: 2026-01-05
一针见血的安全修复:用单个实例修补微调后的大语言模型 / Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance
1️⃣ 一句话总结
这篇论文发现,只需使用一个安全示例,就能高效且低成本地修复因微调而受损的大语言模型安全性,且不会影响模型的其他有用功能,其有效性源于安全梯度具有的低秩结构。