arXiv ID:
2603.22061
arXiv 提交日期: 2026-03-23
论主题匹配对比基线在多方向拒绝消除中的失效 / On the Failure of Topic-Matched Contrast Baselines in Multi-Directional Refusal Abliteration
1️⃣ 一句话总结
这篇论文发现,在消除AI模型拒绝回答有害指令的能力时,使用与有害主题相匹配的‘无害’指令作为对比基线,反而无法提取出有效的‘拒绝方向’,导致消除失败,揭示了对比基线设计的关键性。