arXiv ID:
2512.10411
滑动窗口注意力适应 / Sliding Window Attention Adaptation
1️⃣ 一句话总结
这篇论文提出了一套名为SWAA的实用方法,通过组合五种策略,成功地将原本使用全注意力的预训练大语言模型高效地适应到计算成本更低的滑动窗口注意力机制上,从而在保持长文本处理性能的同时显著降低了推理成本。