AutoNeural:为NPU推理协同设计的视觉-语言模型 / AutoNeural: Co-Designing Vision-Language Models for NPU Inference
1️⃣ 一句话总结
这篇论文提出了一种名为AutoNeural的新型视觉-语言模型架构,它通过专门为神经处理单元(NPU)的硬件特性进行协同设计,解决了现有模型在NPU上运行效率低下的问题,从而在边缘设备上实现了更快、更稳定的多模态人工智能推理。
请先 登录 后再提交论文
AutoNeural:为NPU推理协同设计的视觉-语言模型 / AutoNeural: Co-Designing Vision-Language Models for NPU Inference
这篇论文提出了一种名为AutoNeural的新型视觉-语言模型架构,它通过专门为神经处理单元(NPU)的硬件特性进行协同设计,解决了现有模型在NPU上运行效率低下的问题,从而在边缘设备上实现了更快、更稳定的多模态人工智能推理。
SignRoundV2:弥合大语言模型极低位宽后训练量化中的性能差距 / SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs
这篇论文提出了一个名为SignRoundV2的新方法,它通过一种快速的敏感度指标和轻量级预调优技术,成功地将大语言模型压缩到极低的位宽(如2比特或4比特),同时保持了与原始高精度模型非常接近的性能,解决了此类压缩通常导致性能严重下降的难题。
WUSH:面向大语言模型量化的近乎最优自适应变换 / WUSH: Near-Optimal Adaptive Transforms for LLM Quantization
这篇论文提出了一种名为WUSH的新型自适应变换方法,它通过结合哈达玛变换和数据统计信息,为降低大语言模型量化过程中的动态范围提供了理论最优且易于实现的解决方案,从而有效提升了量化模型的性能。
UniQL:面向自适应边缘大语言模型的统一量化与低秩压缩框架 / UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs
这篇论文提出了一个名为UniQL的统一框架,它通过结合量化与低秩压缩技术,在云端一次性完成模型优化,使大语言模型能在手机等边缘设备上高效运行,在显著减小模型体积并提升运行速度的同时,基本保持原有的准确性。
针对电子商务优化小型语言模型的性能权衡 / Performance Trade-offs of Optimizing Small Language Models for E-Commerce
这篇论文证明通过专门优化的小型语言模型可以在电子商务意图识别任务中达到与大型模型相当的99%准确率,同时显著降低计算成本,但不同硬件上的性能表现存在明显权衡。
BitNet蒸馏 / BitNet Distillation
这篇论文提出了一种名为BitDistill的轻量级方法,能够将现成的高精度大语言模型针对特定任务微调成仅使用1.58位(三元权重)的极简版本,在保持与原模型相当性能的同时,大幅降低了内存占用并提升了CPU推理速度。
超越效率:面向大语言模型的量化增强强化学习 / QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
本文提出了一种名为QeRL的量化增强强化学习框架,它不仅通过降低内存占用和加速训练过程来提升大语言模型强化学习的效率,还巧妙地利用量化噪声增强策略探索能力,从而在数学推理等任务上达到与全参数微调相当甚至更好的性能。
大语言模型联合量化与稀疏化的最优大脑修复方法 / Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs
本文提出了一种名为‘最优大脑修复’的无训练框架,通过误差补偿协同解决大语言模型量化与稀疏化之间的技术冲突,在保持模型性能的同时实现了4.72倍加速和6.4倍内存压缩。