arXiv ID:
2606.26666
arXiv 提交日期: 2026-06-25
PersistentKV:面向商用GPU长上下文LLM服务的页感知解码调度 / PersistentKV: Page-Aware Decode Scheduling for Long-Context LLM Serving on Commodity GPUs
1️⃣ 一句话总结
本文提出了一种名为PersistentKV的页感知解码调度引擎,通过将注意力计算按KV头分组、复用缓存块和智能任务调度,有效解决了长上下文大语言模型推理中KV缓存搬运导致的GPU利用率低问题,在不同负载下比现有最优方案实现了6%到40%的吞吐提升。