arXiv ID:
2508.20766
arXiv 提交日期: 2025-08-28
扭转咒语:通过一阶安全注入实现轻量级对齐增强 / Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
1️⃣ 一句话总结
这篇论文提出了一种无需微调的白盒方法ROSI,通过简单修改模型权重来增强大语言模型的安全拒绝能力,同时保持其正常任务性能,为低成本提升AI安全性提供了新思路。