arXiv最新AI论文速览速学

📄

2512.02351

🤖 系统

12-04 14:44

multi-modal model training model evaluation

sparsity mixture-of-experts model compression multimodal understanding generation efficiency

理解与利用统一多模态模型中的稀疏性 / Understanding and Harnessing Sparsity in Unified Multimodal Models

1️⃣ 一句话总结

这篇论文通过分析发现，统一多模态模型中的理解部分可以大幅压缩而不影响性能，但生成部分对压缩非常敏感，为此作者提出了一种基于稀疏激活的专家混合适配方法，使模型在仅激活约一半参数的情况下，就能达到与完整模型相当的性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.03383

🤖 系统

12-04 14:28

llm model training systems

model compression quantization low-rank compression edge computing post-training

UniQL：面向自适应边缘大语言模型的统一量化与低秩压缩框架 / UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为UniQL的统一框架，它通过结合量化与低秩压缩技术，在云端一次性完成模型优化，使大语言模型能在手机等边缘设备上高效运行，在显著减小模型体积并提升运行速度的同时，基本保持原有的准确性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.16664

🤖 系统

11-30 17:56

llm model training systems

model compression multi-scale models mamba-attention knowledge distillation efficient deployment

📄 论文总结

Nemotron Elastic：迈向高效多合一推理大语言模型 / Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

1️⃣ 一句话总结

这篇论文提出了一种名为Nemotron Elastic的创新框架，能在单一模型中嵌入多个不同规模的子模型，无需额外训练即可直接部署，从而大幅降低了构建多规格推理大语言模型的训练成本。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.13998

🤖 系统

11-30 17:41

llm model training systems

model compression quantization knowledge distillation efficient inference ternary weights

📄 论文总结

BitNet蒸馏 / BitNet Distillation

1️⃣ 一句话总结

这篇论文提出了一种名为BitDistill的轻量级方法，能够将现成的高精度大语言模型针对特定任务微调成仅使用1.58位（三元权重）的极简版本，在保持与原模型相当性能的同时，大幅降低了内存占用并提升了CPU推理速度。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.05528

🤖 系统

11-30 17:36

llm model training machine learning

model pruning sparse matrices matrix factorization 2:4 sparsity model compression

📄 论文总结

ARMOR：通过自适应矩阵分解实现高性能半结构化剪枝 / ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization

1️⃣ 一句话总结

这篇论文提出了一种名为ARMOR的新方法，通过将神经网络权重矩阵分解为稀疏核心和轻量级校正模块，在保持模型运行速度和内存效率的同时，显著提升了剪枝后模型的性能，解决了现有压缩技术导致性能下降的问题。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.11177

🤖 系统

11-30 17:32

llm model training machine learning

model compression quantization sparsity hessian optimization pruning

📄 论文总结

大语言模型联合量化与稀疏化的最优大脑修复方法 / Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs

1️⃣ 一句话总结

本文提出了一种名为‘最优大脑修复’的无训练框架，通过误差补偿协同解决大语言模型量化与稀疏化之间的技术冲突，在保持模型性能的同时实现了4.72倍加速和6.4倍内存压缩。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.02351

1️⃣ 一句话总结

2512.03383

1️⃣ 一句话总结

2511.16664

📄 论文总结

1️⃣ 一句话总结

2510.13998

📄 论文总结

1️⃣ 一句话总结

2510.05528

📄 论文总结

1️⃣ 一句话总结

2509.11177

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.02351 📝

1️⃣ 一句话总结

2512.03383 📝

1️⃣ 一句话总结

2511.16664 📝

📄 论文总结

1️⃣ 一句话总结

2510.13998 📝

📄 论文总结

1️⃣ 一句话总结

2510.05528 📝

📄 论文总结

1️⃣ 一句话总结

2509.11177 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2512.02351

2512.03383

2511.16664

2510.13998

2510.05528

2509.11177