arXiv ID:
2606.10722
arXiv 提交日期: 2026-06-09
大型语言模型持续训练升级:一种基于预测器门控的按块稀疏训练方法,将稠密模型转化为稀疏模型 / Continual LLM Upcycling: A Predictor-Gated Bank-Wise Sparsity Training Recipe for Dense-to-Sparse LLMs
1️⃣ 一句话总结
本文提出了一种方法,通过持续训练将已有的稠密大语言模型(如Qwen2.5-8B)转化为一种计算高效的稀疏模型,其核心是在每个处理单元中只激活少量通道,从而大幅减少计算量,同时通过一个轻量级的预测模块动态决定哪些通道被激活,并且作者还发现并修复了模型在处理超长文本时出现的一种特定错误。