← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm systems
详细标签: kv cache pruning long-context inference static sparsity two-stage training frequency-aware pruning 或 搜索:

📄 论文总结


1️⃣ 一句话总结

这篇论文提出了一种名为LeanK的学习型键值缓存(KV Cache)通道剪枝方法,通过两阶段训练学习静态稀疏性,显著减少GPU内存占用(最高70%)并加速解码(1.3×-1.6×),同时保持模型准确性,解决了长上下文任务中KV缓存效率低下的核心问题。


2️⃣ 论文创新点

静态通道稀疏性学习

两阶段训练框架

频率感知的通道重要性


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF