arXiv ID:
2602.16977
arXiv 提交日期: 2026-02-19
大语言模型的故障安全对齐 / Fail-Closed Alignment for Large Language Models
1️⃣ 一句话总结
这篇论文发现当前大语言模型的安全对齐机制存在‘故障开放’的弱点,容易被特定攻击绕过,因此提出了一种‘故障安全’的对齐新框架,通过让模型学习多条独立的安全路径来确保即使部分路径失效,模型依然能拒绝生成有害内容,从而显著提升了安全性。