arXiv ID:
2601.19375
选择性导向:通过判别性层选择实现规范保持的控制 / Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection
1️⃣ 一句话总结
这篇论文提出了一种名为‘选择性导向’的新方法,通过数学上严格的规范保持旋转和智能选择关键网络层,在大语言模型推理时更稳定、高效地控制其行为,使其既能有效抵御恶意攻击,又几乎不影响模型的正常能力。