arXiv ID:
2601.14004
定位、引导与改进:大语言模型中可操作的机制可解释性实用综述 / Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为‘定位、引导与改进’的实用框架,将大语言模型的机制可解释性从单纯的观察分析转变为可实际操作的干预方法,从而有效提升模型的性能、对齐性和效率。