← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm
详细标签: safety alignment adversarial robustness activation steering jailbreak defense harm rejection 或 搜索:

📄 论文总结

通过秩一安全注入增强大语言模型的安全对齐

Enhancing LLM Safety Alignment via Rank-One Safety Injection


1️⃣ 一句话总结

ROSI是一种无需微调的白盒方法,通过识别并放大模型激活空间中的安全方向来永久增强大语言模型的安全对齐能力,显著提高有害指令拒绝率和对抗越狱攻击的鲁棒性,同时保持模型通用性能。


2️⃣ 论文创新点

1. 秩一安全注入(ROSI)机制

2. 安全方向提取方法

3. 非审查模型安全重对齐


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF