arXiv ID:
2602.13680
arXiv 提交日期: 2026-02-14
AllMem:一种以内存为中心的、用于高效长上下文建模的解决方案 / AllMem: A Memory-centric Recipe for Efficient Long-context Modeling
1️⃣ 一句话总结
这篇论文提出了一种名为AllMem的新型混合架构,它通过结合滑动窗口注意力与非线性测试时训练记忆网络,让大语言模型能够高效处理超长文本,在保持高性能的同时大幅降低了计算和内存开销。