arXiv最新AI论文速览速学

🔍

标签: #low-bit quantization ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 103 72小时内新更新论文 72h更新 103 最新: BitNet Text Embeddings 06-25

arXiv ID: 2606.25674

arXiv 提交日期: 2026-06-24

natural language processing model training model evaluation text embeddings low-bit quantization contrastive learning retrieval benchmark

比特网络文本嵌入 / BitNet Text Embeddings

1️⃣ 一句话总结

本文提出了一个名为BITEMBED的极低比特框架，能将基于大语言模型的文本嵌入模型转化为使用三值权重和量化激活的高效编码器，同时支持多种精度的输出嵌入，在大幅降低计算和存储成本的前提下，保持与原始全精度模型相当的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.04945

arXiv 提交日期: 2026-06-03

llm model training model evaluation diffusion model post-training quantization low-bit quantization attention compensation efficient deployment

STaR-Quant：面向扩散大语言模型的状态-时间一致后训练量化方法 / STaR-Quant: State-Time Consistent Post-Training Quantization for Diffusion Large Language Models

1️⃣ 一句话总结

本文提出了一种名为STaR-Quant的高效量化方法，通过分别处理掩码与未掩码 token 的不同激活分布，并补偿每一步去噪过程中累积的量化误差，从而显著压缩扩散大语言模型的计算和存储开销，在不牺牲性能的前提下实现近1.7倍的加速和3.1倍以上的内存节省。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.02011

arXiv 提交日期: 2026-06-01

llm model evaluation model training low-bit quantization reasoning models inference efficiency failure mitigation token length

极端低位推理在推理模型中的应用：失败模式与针对性恢复 / Extreme Low-Bit Inference in Reasoning Models: Failure Modes and Targeted Recovery

1️⃣ 一句话总结

本文发现，将推理模型（如Qwen3）的权重量化到2位（极低精度）会导致模型生成大量重复、卡顿或过早结束的错误推理过程，从而抵消速度优势；通过引入两种轻量方法（高精度规划大纲和循环检测恢复），可以大幅修复这些错误，使2位推理在保持加速的同时恢复接近原始模型的准确率，比如将Qwen3-8B在MATH-500上的准确率从17.2%提升到74.2%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.26628

arXiv 提交日期: 2026-05-26

machine learning aigc model training post-training quantization text-to-video activation calibration low-bit quantization wan2.2

尾感知HiFloat4：面向Wan2.2的W4A4训练后量化方法 / Tail-Aware HiFloat4: W4A4 Post-Training Quantization for Wan2.2

1️⃣ 一句话总结

该论文提出了一种针对Wan2.2文本转视频模型的低比特量化方案，通过引入尾感知的百分位校准模块和边界高精度保留策略，在将模型权重和激活值压缩至4位精度的同时，有效抑制了罕见校准异常值的影响，保持了推理效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.25469

arXiv 提交日期: 2026-05-25

model training llm quantization-aware training straight-through estimator jacobian surrogate low-bit quantization convergence analysis

JacQuant：通过学习雅可比代理实现无STE的量化感知训练 / JacQuant: STE-Free Quantization-Aware Training via Learned Jacobian Surrogates

1️⃣ 一句话总结

本文提出了一种名为JacQuant的新型量化感知训练方法，通过学习模型参数变化的局部灵敏度代理（轻量级对角或块对角矩阵），替代传统方法中不稳定的直通估计器（STE），从而在超低位宽（≤2比特）的大语言模型量化训练中显著提升精度，且计算开销几乎可以忽略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25284

arXiv 提交日期: 2026-03-26

llm model training machine learning post-training quantization large language models low-bit quantization model compression quantization sensitivity

SliderQuant：面向大语言模型的精确训练后量化 / SliderQuant: Accurate Post-Training Quantization for LLMs

1️⃣ 一句话总结

本文提出了一种名为SliderQuant的新量化框架，它通过分析发现大语言模型不同层对量化的敏感度不同，并设计了一种自适应的滑动窗口量化方法，从而在多种任务和模型上显著降低了量化误差，效果优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15563

arXiv 提交日期: 2026-02-17

model training machine learning llm quantization-aware training low-bit quantization k-means quantization model compression memory efficiency

1比特奇迹：通过K-Means量化提升低比特量化感知训练的性能 / 1-Bit Wonder: Improving QAT Performance in the Low-Bit Regime through K-Means Quantization

1️⃣ 一句话总结

这项研究发现，在极低的比特数下，使用K-Means方法对大型语言模型的权重进行量化，比传统的整数格式效果更好，并且能在固定内存预算下，用1比特权重在下游生成任务上取得最佳性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.25674

1️⃣ 一句话总结

arXiv ID: 2606.04945

1️⃣ 一句话总结

arXiv ID: 2606.02011

1️⃣ 一句话总结

arXiv ID: 2605.26628

1️⃣ 一句话总结

arXiv ID: 2605.25469

1️⃣ 一句话总结

arXiv ID: 2603.25284

1️⃣ 一句话总结

arXiv ID: 2602.15563

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.25674 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.04945 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.02011 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.26628 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.25469 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25284 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15563 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.25674

arXiv ID: 2606.04945

arXiv ID: 2606.02011

arXiv ID: 2605.26628

arXiv ID: 2605.25469

arXiv ID: 2603.25284

arXiv ID: 2602.15563