arXiv ID:
2606.05614
arXiv 提交日期: 2026-06-04
安全悖论:增强的安全意识如何使大语言模型更容易受到后验攻击 / Safety Paradox: How Enhanced Safety Awareness Leaves LLMs Vulnerable to Posterior Attack
1️⃣ 一句话总结
这篇论文发现了一个矛盾现象:越是被训练得“懂安全”的大语言模型,反而越容易被一种名为“后验攻击”的简单方法骗过,因为它能精准生成自己原本会拒绝的有害内容,从而揭示了当前安全对齐策略的潜在缺陷。