arXiv ID:
2604.27401
arXiv 提交日期: 2026-04-30
扰动探针:针对对齐大语言模型中前馈神经网络行为电路的双遍提示诊断方法 / Perturbation Probing: A Two-Pass-per-Prompt Diagnostic for FFN Behavioral Circuits in Aligned LLMs
1️⃣ 一句话总结
本文提出一种名为“扰动探针”的高效方法,仅需两次前向传播即可定位大模型中控制特定行为(如安全拒绝、语言切换)的关键神经元(仅占全部神经元的万分之一点四),并通过实验揭示了RLHF(基于人类反馈的强化学习)如何通过“对立电路”和“路由电路”两种结构组织模型行为,为精确编辑模型行为提供了实用工具。