理解与利用统一多模态模型中的稀疏性 / Understanding and Harnessing Sparsity in Unified Multimodal Models
1️⃣ 一句话总结
这篇论文通过分析发现,统一多模态模型中的理解部分可以大幅压缩而不影响性能,但生成部分对压缩非常敏感,为此作者提出了一种基于稀疏激活的专家混合适配方法,使模型在仅激活约一半参数的情况下,就能达到与完整模型相当的性能。
请先 登录 后再提交论文
理解与利用统一多模态模型中的稀疏性 / Understanding and Harnessing Sparsity in Unified Multimodal Models
这篇论文通过分析发现,统一多模态模型中的理解部分可以大幅压缩而不影响性能,但生成部分对压缩非常敏感,为此作者提出了一种基于稀疏激活的专家混合适配方法,使模型在仅激活约一半参数的情况下,就能达到与完整模型相当的性能。
UniQL:面向自适应边缘大语言模型的统一量化与低秩压缩框架 / UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs
这篇论文提出了一个名为UniQL的统一框架,它通过结合量化与低秩压缩技术,在云端一次性完成模型优化,使大语言模型能在手机等边缘设备上高效运行,在显著减小模型体积并提升运行速度的同时,基本保持原有的准确性。
Nemotron Elastic:迈向高效多合一推理大语言模型 / Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
这篇论文提出了一种名为Nemotron Elastic的创新框架,能在单一模型中嵌入多个不同规模的子模型,无需额外训练即可直接部署,从而大幅降低了构建多规格推理大语言模型的训练成本。
BitNet蒸馏 / BitNet Distillation
这篇论文提出了一种名为BitDistill的轻量级方法,能够将现成的高精度大语言模型针对特定任务微调成仅使用1.58位(三元权重)的极简版本,在保持与原模型相当性能的同时,大幅降低了内存占用并提升了CPU推理速度。
ARMOR:通过自适应矩阵分解实现高性能半结构化剪枝 / ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization
这篇论文提出了一种名为ARMOR的新方法,通过将神经网络权重矩阵分解为稀疏核心和轻量级校正模块,在保持模型运行速度和内存效率的同时,显著提升了剪枝后模型的性能,解决了现有压缩技术导致性能下降的问题。
大语言模型联合量化与稀疏化的最优大脑修复方法 / Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs
本文提出了一种名为‘最优大脑修复’的无训练框架,通过误差补偿协同解决大语言模型量化与稀疏化之间的技术冲突,在保持模型性能的同时实现了4.72倍加速和6.4倍内存压缩。