arXiv最新AI论文速览速学

🔍

标签: #parameter efficiency ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Hyperloop Transformers 04-24

arXiv ID: 2603.17917

arXiv 提交日期: 2026-03-18

llm model training machine learning weight clustering model compression rank preservation training-free parameter efficiency

权重聚类的大语言模型中，只有相对排序才重要 / Only relative ranks matter in weight-clustered large language models

1️⃣ 一句话总结

这篇论文发现，大语言模型性能的关键在于权重之间的相对强弱排序，而非精确数值，因此通过简单的权重聚类将每个矩阵压缩到仅16-64个不同值，就能在不重新训练的情况下有效压缩模型，并揭示了保持权重排序对维持模型能力至关重要。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14898

arXiv 提交日期: 2026-03-16

machine learning model training systems knowledge distillation quantum photonics hybrid systems parameter efficiency convolutional compression

光子量子增强知识蒸馏 / Photonic Quantum-Enhanced Knowledge Distillation

1️⃣ 一句话总结

这篇论文提出了一种结合光子量子处理器和经典机器学习的新方法，利用光子硬件产生的结构化随机性来高效压缩大型神经网络模型，在保持较高准确率的同时，显著减少了学生模型的参数量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09138

arXiv 提交日期: 2026-03-10

computer vision model training machine learning rotation equivariance vision mamba geometric prior parameter efficiency robustness

面向视觉任务的旋转等变Mamba模型 / Rotation Equivariant Mamba for Vision Tasks

1️⃣ 一句话总结

本文提出了首个具有旋转等变性的视觉Mamba架构EQ-VMamba，通过在模型中嵌入图像旋转对称性这一几何先验，使其对图像旋转更加鲁棒，并在多个视觉任务上以更少的参数取得了优异或具有竞争力的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08391

arXiv 提交日期: 2026-03-09

llm model training theory transformers reasoning memory adaptive computation parameter efficiency

Transformer中的自适应循环与记忆机制：是深入思考还是博闻强记？ / Adaptive Loops and Memory in Transformers: Think Harder or Know More?

1️⃣ 一句话总结

这篇论文提出了一种结合了自适应循环机制和记忆库的新型Transformer模型，它通过让模型的不同部分学会“反复思考”或“存取知识”，在数学推理和常识任务上均取得了优于传统深层模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05121

arXiv 提交日期: 2026-03-05

llm model evaluation natural language processing speech llm layer pruning model redundancy speech translation parameter efficiency

测量语音大语言模型中解码器层的冗余性 / Measuring the Redundancy of Decoder Layers in SpeechLLMs

1️⃣ 一句话总结

这篇论文研究发现，用于处理语音任务的大语言模型（SpeechLLM）的解码器部分存在大量冗余，通过剪枝移除多达40%的层后模型性能依然良好，并且这种冗余模式在不同任务和语言中具有一致性，为构建更高效的轻量级多任务语音模型提供了可能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03995

arXiv 提交日期: 2026-03-04

model training llm machine learning lora fine-tuning singular value decomposition parameter efficiency post-hoc refinement

谱手术：通过梯度引导的奇异值重加权实现无需训练的LoRA微调 / Spectral Surgery: Training-Free Refinement of LoRA via Gradient-Guided Singular Value Reweighting

1️⃣ 一句话总结

这篇论文提出了一种名为‘谱手术’的新方法，它能在不重新训练的情况下，通过分析并调整现有LoRA适配器中各个成分的重要性，来显著提升大语言模型在特定任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01526

arXiv 提交日期: 2026-03-02

model training machine learning natural language processing multi-task learning low-rank adaptation parameter efficiency model adaptation gradient conflict

可扩展的多任务低秩模型适配方法 / Scalable Multi-Task Low-Rank Model Adaptation

1️⃣ 一句话总结

本文提出了一种名为mtLoRA的新方法，通过选择性正则化、块级适配和细粒度路由三个关键技术，解决了现有技术在将低秩适配扩展到大量任务时出现的性能急剧下降问题，在显著减少参数和训练时间的同时，在多个大规模视觉和自然语言处理任务上取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21371

arXiv 提交日期: 2026-02-24

llm model training theory attention mechanism multi-head attention reasoning parameter efficiency transformer architecture

交错头注意力机制 / Interleaved Head Attention

1️⃣ 一句话总结

这篇论文提出了一种名为‘交错头注意力’的新方法，通过让注意力头之间在计算时相互通信，有效解决了传统多头注意力机制在处理多步推理任务时信息不互通的问题，从而提升了大型语言模型在数学解题和复杂信息检索等任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17559

arXiv 提交日期: 2026-02-19

model training machine learning natural language processing continual learning weight regularization low-rank adaptation parameter efficiency task interference

重访权重正则化在低秩持续学习中的应用 / Revisiting Weight Regularization for Low-Rank Continual Learning

1️⃣ 一句话总结

这篇论文提出了一种名为EWC-LoRA的新方法，通过将经典的权重正则化技术应用于低秩适配器，有效解决了大规模预训练模型在持续学习中的任务干扰问题，同时保持了存储和计算开销的恒定。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14514

arXiv 提交日期: 2026-02-16

computer vision model training aigc diffusion models conditional generation efficient adaptation multimodal conditioning parameter efficiency

用于扩散模型的高效文本引导卷积适配器 / Efficient Text-Guided Convolutional Adapter for the Diffusion Model

1️⃣ 一句话总结

这篇论文提出了两种名为Nexus的高效适配器，它们能同时理解文本提示和结构输入（如草图），从而在保持图像结构的同时大幅减少模型参数量，提升了扩散模型的条件图像生成效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.17917

1️⃣ 一句话总结

arXiv ID: 2603.14898

1️⃣ 一句话总结

arXiv ID: 2603.09138

1️⃣ 一句话总结

arXiv ID: 2603.08391

1️⃣ 一句话总结

arXiv ID: 2603.05121

1️⃣ 一句话总结

arXiv ID: 2603.03995

1️⃣ 一句话总结

arXiv ID: 2603.01526

1️⃣ 一句话总结

arXiv ID: 2602.21371

1️⃣ 一句话总结

arXiv ID: 2602.17559

1️⃣ 一句话总结

arXiv ID: 2602.14514

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.17917 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14898 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09138 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08391 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05121 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03995 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01526 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21371 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17559 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14514 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.17917

arXiv ID: 2603.14898

arXiv ID: 2603.09138

arXiv ID: 2603.08391

arXiv ID: 2603.05121

arXiv ID: 2603.03995

arXiv ID: 2603.01526

arXiv ID: 2602.21371

arXiv ID: 2602.17559

arXiv ID: 2602.14514