arXiv ID:
2606.25674
比特网络文本嵌入 / BitNet Text Embeddings
1️⃣ 一句话总结
本文提出了一个名为BITEMBED的极低比特框架,能将基于大语言模型的文本嵌入模型转化为使用三值权重和量化激活的高效编码器,同时支持多种精度的输出嵌入,在大幅降低计算和存储成本的前提下,保持与原始全精度模型相当的性能。
比特网络文本嵌入 / BitNet Text Embeddings
本文提出了一个名为BITEMBED的极低比特框架,能将基于大语言模型的文本嵌入模型转化为使用三值权重和量化激活的高效编码器,同时支持多种精度的输出嵌入,在大幅降低计算和存储成本的前提下,保持与原始全精度模型相当的性能。
STaR-Quant:面向扩散大语言模型的状态-时间一致后训练量化方法 / STaR-Quant: State-Time Consistent Post-Training Quantization for Diffusion Large Language Models
本文提出了一种名为STaR-Quant的高效量化方法,通过分别处理掩码与未掩码 token 的不同激活分布,并补偿每一步去噪过程中累积的量化误差,从而显著压缩扩散大语言模型的计算和存储开销,在不牺牲性能的前提下实现近1.7倍的加速和3.1倍以上的内存节省。
极端低位推理在推理模型中的应用:失败模式与针对性恢复 / Extreme Low-Bit Inference in Reasoning Models: Failure Modes and Targeted Recovery
本文发现,将推理模型(如Qwen3)的权重量化到2位(极低精度)会导致模型生成大量重复、卡顿或过早结束的错误推理过程,从而抵消速度优势;通过引入两种轻量方法(高精度规划大纲和循环检测恢复),可以大幅修复这些错误,使2位推理在保持加速的同时恢复接近原始模型的准确率,比如将Qwen3-8B在MATH-500上的准确率从17.2%提升到74.2%。
尾感知HiFloat4:面向Wan2.2的W4A4训练后量化方法 / Tail-Aware HiFloat4: W4A4 Post-Training Quantization for Wan2.2
该论文提出了一种针对Wan2.2文本转视频模型的低比特量化方案,通过引入尾感知的百分位校准模块和边界高精度保留策略,在将模型权重和激活值压缩至4位精度的同时,有效抑制了罕见校准异常值的影响,保持了推理效率。
JacQuant:通过学习雅可比代理实现无STE的量化感知训练 / JacQuant: STE-Free Quantization-Aware Training via Learned Jacobian Surrogates
本文提出了一种名为JacQuant的新型量化感知训练方法,通过学习模型参数变化的局部灵敏度代理(轻量级对角或块对角矩阵),替代传统方法中不稳定的直通估计器(STE),从而在超低位宽(≤2比特)的大语言模型量化训练中显著提升精度,且计算开销几乎可以忽略。
SliderQuant:面向大语言模型的精确训练后量化 / SliderQuant: Accurate Post-Training Quantization for LLMs
本文提出了一种名为SliderQuant的新量化框架,它通过分析发现大语言模型不同层对量化的敏感度不同,并设计了一种自适应的滑动窗口量化方法,从而在多种任务和模型上显著降低了量化误差,效果优于现有方法。
1比特奇迹:通过K-Means量化提升低比特量化感知训练的性能 / 1-Bit Wonder: Improving QAT Performance in the Low-Bit Regime through K-Means Quantization
这项研究发现,在极低的比特数下,使用K-Means方法对大型语言模型的权重进行量化,比传统的整数格式效果更好,并且能在固定内存预算下,用1比特权重在下游生成任务上取得最佳性能。
请先 登录 后再提交论文