arXiv ID:
2602.02132
arXiv 提交日期: 2026-02-02
大语言模型中的拒绝行为不止于单一方向 / There Is More to Refusal in Large Language Models than a Single Direction
1️⃣ 一句话总结
这篇论文研究发现,大语言模型中的拒绝行为并非由单一的激活方向控制,而是对应多个几何上不同的方向,但这些方向都像一个共享的‘一维旋钮’,主要影响模型‘如何拒绝’而非‘是否拒绝’的核心行为。