arXiv ID:
2605.11196
arXiv 提交日期: 2026-05-11
变分线性注意力:面向长上下文Transformer的稳定关联记忆 / Variational Linear Attention: Stable Associative Memory for Long-Context Transformers
1️⃣ 一句话总结
本文提出了一种名为变分线性注意力(VLA)的新方法,通过将线性注意力中的记忆更新重新建模为带有自适应惩罚项的正则化最小二乘问题,并引入归一化写入方向,有效解决了传统线性注意力在处理长序列时记忆状态不断增长、干扰逐渐累积的核心缺陷,从而在长上下文中实现了稳定、高效的关联记忆检索。