arXiv ID:
2606.22935
混合压缩:融合剪枝与量化的优化神经网络方法 / Hybrid Compression: Integrating Pruning and Quantization for Optimized Neural Networks
1️⃣ 一句话总结
本文提出一种两阶段的神经网络压缩方法,先通过剪枝和量化大幅缩小模型体积,再用混合专家架构调度多个小型压缩模型,在几乎不损失准确率的情况下显著降低计算量和参数量,从而让深度模型能够在存储和算力有限的嵌入式设备上高效运行。