arXiv ID:
2604.23862
图形记忆Transformer / Graph Memory Transformer (GMT)
1️⃣ 一句话总结
本文提出了一种名为图形记忆Transformer(GMT)的新型语言模型,它用显式的可学习记忆图替代了传统Transformer中的前馈网络层,通过让模型在记忆中心之间“导航”而非进行密集变换,在保持相近零样本性能的同时,显著减少了参数量,并提供了更可解释的内部运作机制。