arXiv最新AI论文速览速学

🔍

标签: #quantization ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: An Optimal Control Approach To Transformer Training 03-11

arXiv ID: 2603.09571

arXiv 提交日期: 2026-03-10

theory model training machine learning optimal control transformer training mckean-vlasov dynamics dynamic programming quantization

一种基于最优控制的Transformer训练方法 / An Optimal Control Approach To Transformer Training

1️⃣ 一句话总结

这篇论文提出了一种基于最优控制理论的全新Transformer训练框架，通过将模型建模为粒子系统并提升到概率空间，证明了全局最优策略的存在性，并设计了一种量化训练方法，为传统梯度训练提供了一个不依赖平滑性或凸性的全局最优且鲁棒的替代方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08173

arXiv 提交日期: 2026-03-09

audio model training machine learning quantization speech processing evolution strategy calibration low-bit precision

基于进化策略的语音模型低比特量化校准方法 / Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

1️⃣ 一句话总结

本文提出了一种名为ESC的新方法，它利用进化策略来优化语音模型量化过程中的激活值缩放问题，从而在极低的INT4精度下，首次实现了跨多个语音任务的近乎无损性能，解决了现有量化技术因音频信号特性而导致的严重信息丢失难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04956

arXiv 提交日期: 2026-03-05

model training machine learning theory quantization linear layers information theory llm compression low precision

WaterSIC：一种信息论上（接近）最优的线性层量化方法 / WaterSIC: information-theoretically (near) optimal linear layer quantization

1️⃣ 一句话总结

本文提出了一种名为WaterSIC的新算法，它通过为神经网络线性层权重矩阵的不同列分配不同的量化比特数，在信息论上实现了接近最优的模型压缩，显著提升了大型语言模型在1到4比特低精度量化下的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05168

arXiv 提交日期: 2026-03-05

llm model training systems quantization sparsity efficient inference model compression 1.58-bit

稀疏比特网：1.58比特大语言模型天然适用于半结构化稀疏化 / Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

1️⃣ 一句话总结

这篇论文发现，将大语言模型压缩到极低的1.58比特后，它们反而能更好地承受另一种名为‘半结构化稀疏’的压缩技术，两者结合能显著提升模型运行速度且性能损失更小。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04720

arXiv 提交日期: 2026-03-05

computer vision model training machine learning neural network compression hyperspectral image classification pruning quantization knowledge distillation

高光谱图像分类中神经网络压缩方法的基准研究 / A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

1️⃣ 一句话总结

这篇论文系统评估了三种主流神经网络压缩技术在高光谱图像分类任务上的效果，发现它们能在保持较高分类精度的同时，显著减小模型体积并提升计算效率，为在资源受限的遥感设备上部署深度学习模型提供了实用方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04162

arXiv 提交日期: 2026-03-04

llm model training model evaluation quantization polish language model low-bit inference post-training quantization model compression

Bielik-Q2-Sharp：针对波兰语110亿参数大模型的极端2位量化方法比较研究 / Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

1️⃣ 一句话总结

这项研究首次系统性地评估了六种先进的2位量化方法在波兰语大模型上的表现，发现部分方法能在模型体积仅小幅增加的情况下，保持甚至提升模型的推理能力，并以极低的成本公开了所有资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02599

arXiv 提交日期: 2026-03-03

systems llm model training multi-model serving resource efficiency model disaggregation inference optimization quantization

SUN：共享下一词预测以实现高效的多LLM解耦服务 / SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

1️⃣ 一句话总结

这篇论文提出了一种名为SUN的新方法，通过将大语言模型的解码部分冻结并共享给多个模型使用，显著提升了多模型同时服务时的GPU利用率和系统吞吐量，同时保持了模型的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02411

arXiv 提交日期: 2026-03-02

model training data machine learning dataset distillation quantization efficient training rate-distortion synthetic data

从减少样本到减少比特：将数据集蒸馏重新定义为精度与紧凑性的联合优化 / From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

1️⃣ 一句话总结

这篇论文提出了一个名为QuADD的新方法，它通过同时优化合成数据的数量和每个数据的存储精度（比特数），在固定的总存储预算下，比现有方法更高效地压缩大型数据集，从而在图像分类等任务上获得更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23334

arXiv 提交日期: 2026-02-26

systems model training machine learning hardware accelerator quantization systolic array fpga mixed-precision

面向硬件加速器的运行时可重配置多精度量化乘法比特级脉动阵列架构 / Bitwise Systolic Array Architecture for Runtime-Reconfigurable Multi-precision Quantized Multiplication on Hardware Accelerators

1️⃣ 一句话总结

这篇论文提出了一种新型的硬件架构，它能在运行时灵活切换计算精度，从而让搭载在边缘设备上的神经网络加速器既能保持高推理精度，又能高效节能地运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.13595

arXiv 提交日期: 2026-02-14

theory model evaluation machine learning quantization scaling laws multi-hop reasoning energy efficiency hardware overhead

量化陷阱：打破多步推理中的线性缩放定律 / The Quantization Trap: Breaking Linear Scaling Laws in Multi-Hop Reasoning

1️⃣ 一句话总结

这篇论文发现，在处理需要多步推理的复杂任务时，简单地降低AI模型的计算精度（如从16位降到8位或4位）不仅不会节省能耗，反而会因为硬件转换开销和去量化延迟成为瓶颈，导致总能耗增加和推理准确性下降，从而打破了业界普遍认为的‘精度越低、效率越高’的线性缩放定律。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.09571

1️⃣ 一句话总结

arXiv ID: 2603.08173

1️⃣ 一句话总结

arXiv ID: 2603.04956

1️⃣ 一句话总结

arXiv ID: 2603.05168

1️⃣ 一句话总结

arXiv ID: 2603.04720

1️⃣ 一句话总结

arXiv ID: 2603.04162

1️⃣ 一句话总结

arXiv ID: 2603.02599

1️⃣ 一句话总结

arXiv ID: 2603.02411

1️⃣ 一句话总结

arXiv ID: 2602.23334

1️⃣ 一句话总结

arXiv ID: 2602.13595

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.09571 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08173 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04956 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05168 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04720 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04162 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02599 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02411 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23334 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.13595 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.09571

arXiv ID: 2603.08173

arXiv ID: 2603.04956

arXiv ID: 2603.05168

arXiv ID: 2603.04720

arXiv ID: 2603.04162

arXiv ID: 2603.02599

arXiv ID: 2603.02411

arXiv ID: 2602.23334

arXiv ID: 2602.13595