arXiv ID:
2604.07815
arXiv 提交日期: 2026-04-09
AsyncTLS:基于异步两级稀疏注意力机制的高效生成式大语言模型推理 / AsyncTLS: Efficient Generative LLM Inference with Asynchronous Two-level Sparse Attention
1️⃣ 一句话总结
这篇论文提出了一种名为AsyncTLS的新系统,它通过结合粗粒度的块筛选和细粒度的令牌选择来智能地减少计算量,并利用异步卸载技术让数据传输和计算同时进行,从而在保持高精度的前提下,大幅提升了处理超长文本时大语言模型的推理速度和效率。