arXiv ID:
2606.24467
arXiv 提交日期: 2026-06-23
CompressKV:面向资源高效长上下文大模型推理的语义检索引导式KV缓存压缩 / CompressKV: Semantic-Retrieval-Guided KV-Cache Compression for Resource-Efficient Long-Context LLM Inference
1️⃣ 一句话总结
本文提出CompressKV方法,通过识别大模型中负责语义检索的注意力头,精准筛选并保留关键上下文信息,从而在仅需极小缓存空间的情况下,显著提升长文本推理的性能和资源效率。