arXiv ID:
2602.15799
arXiv 提交日期: 2026-02-17
对齐崩溃的几何学:当微调破坏安全性时 / The Geometry of Alignment Collapse: When Fine-Tuning Breaks Safety
1️⃣ 一句话总结
这篇论文发现,即使使用无害数据对已对齐的大语言模型进行微调,也会因为模型参数空间中安全对齐结构固有的几何脆弱性,导致安全护栏在训练过程中被系统地、不可预测地破坏,其根本原因在于梯度下降无法感知和避开高曲率的低维敏感子空间。