arXiv ID:
2604.24647
arXiv 提交日期: 2026-04-27
DepthKV:面向长上下文大模型推理的层间敏感型KV缓存剪枝方法 / DepthKV: Layer-Dependent KV Cache Pruning for Long-Context LLM Inference
1️⃣ 一句话总结
本论文提出了一种名为DepthKV的KV缓存剪枝方法,它根据大模型各层对剪枝的敏感度差异来分配全局缓存预算,而不是对所有层使用相同的剪枝比例,从而在推理长文本时更高效地利用内存、提升模型性能。