arXiv ID:
2602.20102
arXiv 提交日期: 2026-02-23
BarrierSteer:通过屏障转向学习实现大语言模型安全 / BarrierSteer: LLM Safety via Learning Barrier Steering
1️⃣ 一句话总结
这篇论文提出了一种名为BarrierSteer的新方法,它通过在学习到的模型内部表示空间中设置‘安全屏障’,在不改动模型本身的情况下,高效地检测并阻止大语言模型生成有害或不安全的内容,从而显著提升了模型的安全性。