arXiv ID:
2604.08524
什么驱动了表征转向?关于引导拒绝行为的机制性案例研究 / What Drives Representation Steering? A Mechanistic Case Study on Steering Refusal
1️⃣ 一句话总结
这篇论文通过研究如何用“转向向量”改变大语言模型的拒绝行为,揭示了这种技术主要通过影响模型内部注意力机制中的特定电路来发挥作用,并且发现这些向量可以被大幅精简而保持效果,为理解模型对齐技术提供了清晰的内部机制解释。