🤖 系统
11-30 17:26
📄 论文总结
扭转咒语:通过一阶安全注入实现轻量级对齐增强 / Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
1️⃣ 一句话总结
这篇论文提出了一种无需微调的白盒方法ROSI,通过简单修改模型权重来增强大语言模型的安全拒绝能力,同时保持其正常任务性能,为低成本提升AI安全性提供了新思路。