arXiv ID:
2606.19317
用程序合成来解释注意力机制 / Explaining Attention with Program Synthesis
1️⃣ 一句话总结
本文提出了一种通过自动生成简单Python程序来模拟和替代Transformer模型中注意力头行为的方法,使得我们既能用人类可读的代码理解模型内部运作,又能在替换大量注意力头后几乎不损害模型性能,从而实现神经网络的可解释性突破。