arXiv ID:
2602.07892
arXiv 提交日期: 2026-02-08
将安全对齐视为持续学习:通过正交梯度投影减轻对齐代价 / Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection
1️⃣ 一句话总结
这篇论文提出了一种名为OGPSA的轻量级方法,通过将安全更新限制在模型通用能力的正交方向上,有效解决了大语言模型在安全对齐过程中会损失原有通用能力(如推理和编程)的普遍问题,从而在提升安全性的同时更好地保持了模型的整体性能。