arXiv ID:
2606.06302
arXiv 提交日期: 2026-06-04
Tangram:解锁非均匀KV缓存以实现高效的多轮大语言模型服务 / Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving
1️⃣ 一句话总结
Tangram提出了一种新型服务系统,通过静态分配内存、分组管理注意力头和预加载负载均衡策略,解决了非均匀KV缓存带来的内存碎片和调度开销问题,从而在多轮对话场景下将大语言模型的吞吐量提升至2.6倍,且不影响模型精度。