arXiv ID:
2604.17215
arXiv 提交日期: 2026-04-19
基于梯度样本选择的持续安全对齐方法 / Continual Safety Alignment via Gradient-Based Sample Selection
1️⃣ 一句话总结
本文研究发现,大语言模型在持续学习新任务时,不同训练样本对安全性的影响差异很大——梯度大的样本容易破坏模型的安全对齐,而梯度适中的样本则能兼顾任务学习和安全保持;基于此,作者提出了一种简单的梯度筛选方法,在微调时自动剔除高梯度样本,从而在不依赖额外安全数据或修改模型结构的情况下,有效防止模型因持续学习而丧失拒绝有害请求、保持诚实等安全能力。