arXiv ID:
2605.05696
arXiv 提交日期: 2026-05-07
伊尔明苏尔:面向智能体大模型推理的原生多头潜注意力与位置无关缓存机制 / Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
1️⃣ 一句话总结
本文针对智能体大模型应用中因位置变化导致传统前缀缓存失效的问题,提出了一种名为伊尔明苏尔的内容寻址缓存系统,它利用多头潜注意力(MLA)架构中键值分离的特性,以闭式旋转修正替代全维度位置矫正,在多项主流大模型上恢复了高达83%的缓存命中率,并节省了63%的预填充能耗,主张将内容寻址缓存作为推理服务的一等公民。