arXiv ID:
2606.26861
arXiv 提交日期: 2026-06-25
面向工业物联网端侧LLM推理的级联多粒度剪枝框架 / Cascaded Multi-Granularity Pruning for On-Device LLM Inference in Industrial IoT
1️⃣ 一句话总结
本文提出了一种级联多粒度剪枝方法,通过从粗到细依次删除层、注意力头和前馈通道,并在各阶段之间用轻量级低秩恢复重新评估重要性,从而在工业物联网边缘设备上大幅压缩大语言模型,同时揭示出不同架构对剪枝策略的适应性差异。