arXiv ID:
2603.15923
arXiv 提交日期: 2026-03-16
超越正交嵌入:基于Transformer的记忆学习研究 / Learning to Recall with Transformers Beyond Orthogonal Embeddings
1️⃣ 一句话总结
这篇论文通过分析在非正交随机嵌入下训练的简单Transformer模型,揭示了其记忆能力(即存储和检索信息的能力)取决于样本数量、嵌入维度和序列长度三者的乘积关系,并证明这种关系是此类模型在现实有限数据场景下的固有特性。