arXiv最新AI论文速览速学

🔍

标签: #model compression ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: Federated Learning of Binary Neural Networks: Enabling Low-Cost Inference 03-17

arXiv ID: 2602.12173

arXiv 提交日期: 2026-02-12

computer vision multi-modal model training vision-language segmentation model compression knowledge distillation text encoder efficient inference

SAM3-LiteText：针对高效视觉语言分割的SAM3文本编码器解剖学研究 / SAM3-LiteText: An Anatomical Study of the SAM3 Text Encoder for Efficient Vision-Language Segmentation

1️⃣ 一句话总结

这篇论文通过分析大量真实分割提示，发现现有视觉语言分割模型中的文本编码器存在严重冗余，并据此设计了一个轻量化的文本编码框架，在保持分割性能的同时，将模型参数减少了高达88%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09509

arXiv 提交日期: 2026-02-10

model training machine learning theory knowledge distillation model compression neural network inheritance low-rank decomposition singular value decomposition

超越学生：一种用于神经网络继承的非对称网络 / Beyond Student: An Asymmetric Network for Neural Network Inheritance

1️⃣ 一句话总结

这篇论文提出了一种名为InherNet的新方法，它通过非对称低秩分解直接继承大型教师网络的结构和核心知识，从而构建出比传统知识蒸馏方法性能更强、参数更少的轻量级网络。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09169

arXiv 提交日期: 2026-02-09

model training llm machine learning structured sparsity model compression efficient finetuning inference acceleration stochastic gates

少训练，快推理：通过结构化稀疏性实现高效模型微调与压缩 / Train Less, Infer Faster: Efficient Model Finetuning and Compression via Structured Sparsity

1️⃣ 一句话总结

这篇论文提出了一种通过结构化稀疏化来微调大语言模型的新方法，它无需大量调整权重，只需训练极少的参数就能让模型适应新任务，同时还能减少模型体积、加快推理速度，并且性能优于现有的主流微调技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05735

arXiv 提交日期: 2026-02-05

machine learning model training systems sparse embeddings representation learning efficiency contrastive learning model compression

CSRv2：解锁超稀疏嵌入 / CSRv2: Unlocking Ultra-Sparse Embeddings

1️⃣ 一句话总结

这篇论文提出了一种名为CSRv2的新训练方法，它通过渐进式稀疏度调整和改进的训练目标，成功解决了现有稀疏嵌入技术在极端稀疏情况下性能大幅下降的问题，使得仅激活极少部分特征就能达到与高维稠密嵌入相当的性能，从而在保持高质量的同时，极大地提升了AI模型在存储、计算和推理速度上的效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05902

arXiv 提交日期: 2026-02-05

llm model training systems post-training quantization model compression calibration low-bit inference successive rounding

用于训练后量化的正则化校准与逐次舍入方法 / Regularized Calibration with Successive Rounding for Post-Training Quantization

1️⃣ 一句话总结

这篇论文提出了一种新的训练后量化方法，通过结合对称与非对称校准的正则化技术，以及一种高效的逐次舍入搜索策略，在仅增加少量计算成本的前提下，显著提升了大语言模型在低比特量化后的性能表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02988

arXiv 提交日期: 2026-02-03

llm model training systems model compression inference acceleration nonlinear approximation hardware optimization dynamic programming

NLI：一种用于高效大语言模型推理的非线性操作非均匀线性插值近似方法 / NLI:Non-uniform Linear Interpolation Approximation of Nonlinear Operations for Efficient LLMs Inference

1️⃣ 一句话总结

这篇论文提出了一种名为NLI的创新方法，通过将非线性函数近似问题转化为动态规划问题，高效且精准地替代大语言模型中的复杂非线性计算，从而在不损失精度的前提下，显著提升了模型的推理速度，硬件实验显示其计算效率比现有最优方案提升了4倍以上。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02680

arXiv 提交日期: 2026-02-02

model training systems machine learning low-rank decomposition adaptive deployment model compression cost-performance tradeoff nested submodels

FlexRank：用于自适应模型部署的嵌套低秩知识分解 / FlexRank: Nested Low-Rank Knowledge Decomposition for Adaptive Model Deployment

1️⃣ 一句话总结

这篇论文提出了一种名为FlexRank的方法，它通过从预训练好的大模型中提取出重要性排序的、可嵌套组合的低秩子模块，让同一个模型能根据不同的计算预算灵活调整大小和性能，实现‘一次训练，随处部署’，从而降低大型模型的实际部署成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.01554

arXiv 提交日期: 2026-02-02

multi-modal model training machine learning visual tokenization information bottleneck multimodal llms model compression unified understanding-generation

InfoTok：面向统一多模态大语言模型中容量受限共享视觉分词的信息流调控 / InfoTok: Regulating Information Flow for Capacity-Constrained Shared Visual Tokenization in Unified MLLMs

1️⃣ 一句话总结

本文提出了一种名为InfoTok的新方法，它通过信息瓶颈原理来调控视觉信息向统一多模态大模型的传递，优先保留对理解和生成任务都有用的核心结构信息，从而在有限的算力资源下，同时提升了模型的理解和生成能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21626

arXiv 提交日期: 2026-01-29

llm model training machine learning quantization hessian matrix model compression post-training quantization low-bit inference

HeRo-Q：一种通过海森矩阵条件化实现稳定低比特量化的通用框架 / HeRo-Q: A General Framework for Stable Low Bit Quantization via Hessian Conditioning

1️⃣ 一句话总结

这篇论文提出了一种名为HeRo-Q的新方法，它通过巧妙地调整模型参数的‘方向’来平滑模型的‘学习地形’，从而让大模型在极低精度（如3比特）下也能稳定工作，避免性能崩溃，且无需改变模型结构或增加太多计算负担。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20088

arXiv 提交日期: 2026-01-27

llm model training systems quantization knowledge distillation model compression inference optimization post-training

用于NVFP4推理精度恢复的量化感知蒸馏 / Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery

1️⃣ 一句话总结

这篇论文提出了一种名为量化感知蒸馏（QAD）的方法，它能有效且稳定地将高精度大模型的“知识”迁移到经过压缩的4位量化模型中，从而在几乎不损失精度的情况下，让模型在资源受限的设备上高效运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.12173

1️⃣ 一句话总结

arXiv ID: 2602.09509

1️⃣ 一句话总结

arXiv ID: 2602.09169

1️⃣ 一句话总结

arXiv ID: 2602.05735

1️⃣ 一句话总结

arXiv ID: 2602.05902

1️⃣ 一句话总结

arXiv ID: 2602.02988

1️⃣ 一句话总结

arXiv ID: 2602.02680

1️⃣ 一句话总结

arXiv ID: 2602.01554

1️⃣ 一句话总结

arXiv ID: 2601.21626

1️⃣ 一句话总结

arXiv ID: 2601.20088

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.12173 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09509 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09169 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05735 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05902 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02988 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02680 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.01554 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21626 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20088 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.12173

arXiv ID: 2602.09509

arXiv ID: 2602.09169

arXiv ID: 2602.05735

arXiv ID: 2602.05902

arXiv ID: 2602.02988

arXiv ID: 2602.02680

arXiv ID: 2602.01554

arXiv ID: 2601.21626

arXiv ID: 2601.20088