arXiv ID:
2606.10445
arXiv 提交日期: 2026-06-09
SpenseGPT:一种实用的一次性剪枝方法,实现大语言模型推理中的稀疏与稠密矩阵乘 / SpenseGPT: Practical One-shot Pruning Enabling Sparse and Dense GEMMs for LLM Inference
1️⃣ 一句话总结
本文提出了一种新方法SpenseGPT,通过将权重矩阵拆分为稀疏和稠密两部分,在保持与现有高效计算库兼容的前提下,放宽了半结构化稀疏的限制,从而在不牺牲模型精度的情况下,在B200 GPU上实现了最高1.2倍的大语言模型推理加速。