📄 论文总结
ARMOR:基于自适应矩阵分解表示的大语言模型一次性训练后剪枝算法 / ARMOR: Adaptive Representation with MatrixfactORization for One-shot Post-training Pruning of Large Language Models
1️⃣ 一句话总结
ARMOR是一种创新的一次性训练后剪枝算法,通过将权重矩阵分解为2:4稀疏核心和块对角包装器,在保持硬件加速优势的同时显著减少模型性能损失。
2️⃣ 论文创新点
1. 自适应矩阵分解剪枝方法
- 创新点:将半结构化剪枝重新定义为矩阵分解问题,通过将权重矩阵分解为符合2:4硬件模式的稀疏核心和轻量级块对角矩阵的组合
- 区别/改进:相比传统2:4剪枝,通过矩阵分解在激活和权重空间进行线性变换,使2:4剪枝约束的损失更小
- 意义:在保持2:4剪枝的推理加速和内存减少优势的同时,显著提高模型准确度
2. 块坐标下降优化算法
- 创新点:使用块坐标下降算法交替更新连续参数(A、B、W')和稀疏核心(W' ⊙ M),最小化层间代理损失
- 区别/改进:将连续参数更新从顺序梯度下降替换为联合Adam优化,提高了计算效率
- 意义:只需一次前向/反向传播即可更新所有连续参数,避免了每次步进重新计算局部β平滑度的需求
3. 稀疏核心贪婪更新策略
- 创新点:采用贪婪方法选择并更新稀疏核心的一部分元素以减少代理损失,利用2:4稀疏模式和代理损失的逐元素特性
- 区别/改进:通过随机选择和代理损失梯度加权的启发式方法,提高收敛速度和性能保持
- 意义:使大规模语言模型的稀疏化更加高效可行
3️⃣ 主要结果与价值
结果亮点
- 在Llama和Qwen模型系列上持续显著优于现有2:4剪枝方法
- 在困惑度和下游任务评估中均表现优异,特别在推理和专业知识密集型任务上表现突出
- 理论证明算法能收敛到代理损失小于或等于现有最先进剪枝算法的解
实际价值
- 保持2:4剪枝的速度提升、模型大小减少和最大VRAM减少等优势
- 仅带来轻微的开销,在实际部署中具有很好的实用性
- 支持硬件加速的2:4稀疏特性,可直接利用现有推理硬件优化
4️⃣ 术语表
- ARMOR:自适应矩阵分解表示(Adaptive Representation with MatrixfactORization),一种用于大语言模型一次性训练后剪枝的算法,通过矩阵分解和稀疏核心的组合实现高效压缩
- 2:4稀疏模式:一种半结构化稀疏模式,其中每四个连续权重中保留两个非零值,常用于硬件加速
- N:M稀疏:一种半结构化剪枝模式,要求在连续的M个权重中,只有N个权重为非零,以保持规则性便于硬件加速
- NoWag:一种层间代理损失函数,通过数据感知的加权Frobenius范数最小化来优化模型压缩
- 块坐标下降:一种优化算法,通过交替更新不同的参数块来求解复杂优化问题