arXiv ID:
2603.14923
Transformer中的定向路由机制 / Directional Routing in Transformers
1️⃣ 一句话总结
这篇论文提出了一种名为‘定向路由’的轻量级机制,它能让Transformer模型中的注意力头学会协作,极大地提升了模型理解和记忆事实的能力,但移除这个协作机制会使模型性能崩溃,而单独移除某个注意力头影响却很小。