arXiv最新AI论文速览速学

🔍

标签: #parameter efficiency ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Hyperloop Transformers 04-24

arXiv ID: 2604.21254

arXiv 提交日期: 2026-04-23

llm model training model evaluation parameter efficiency looped transformer hyper-connections memory-efficient architecture

超环变压器 / Hyperloop Transformers

1️⃣ 一句话总结

本文提出一种名为超环变压器（Hyperloop Transformer）的新型语言模型架构，通过循环使用同一组中间层并结合超连接技术，在参数量减少约50%的情况下，仍能超越传统变压器模型的性能，尤其适合内存受限的设备端部署。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06440

arXiv 提交日期: 2026-04-07

computer vision model training machine learning visual prompting activation prompts fine-tuning vision transformers parameter efficiency

视觉提示的重新构想：激活提示的力量 / Visual prompting reimagined: The power of the Activation Prompts

1️⃣ 一句话总结

这篇论文提出了一种名为‘激活提示’的新方法，它通过在模型内部中间层的激活图上添加通用扰动，显著提升了视觉提示技术的性能与效率，超越了传统输入级视觉提示和参数微调方法，并在多种模型和数据集上验证了其优越性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06169

arXiv 提交日期: 2026-04-07

llm model training systems test-time training continual learning inference-time adaptation autoregressive language modeling parameter efficiency

原位测试时训练 / In-Place Test-Time Training

1️⃣ 一句话总结

这篇论文提出了一种名为‘原位测试时训练’的新方法，让大语言模型在推理时能像人一样边用边学、动态更新知识，从而更好地处理海量新信息，而无需从头开始昂贵地重新训练整个模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05267

arXiv 提交日期: 2026-04-07

llm model training model evaluation mixture of experts domain specialization training-free inference expert interpretation parameter efficiency

基于MoE的大语言模型中是否存在领域专家？ / Do Domain-specific Experts exist in MoE-based LLMs?

1️⃣ 一句话总结

这篇论文通过实证研究发现，基于混合专家架构的大语言模型中确实存在专注于特定领域的专家，并在此基础上提出了一种无需额外训练或推理成本的领域导向框架，有效提升了模型在目标和非目标领域的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02051

arXiv 提交日期: 2026-04-02

model training llm theory recursive transformers lora modulation hypernetwork parameter efficiency dynamic weights

衔尾蛇：通过输入条件化的LoRA调制实现递归变换器的动态权重生成 / Ouroboros: Dynamic Weight Generation for Recursive Transformers via Input-Conditioned LoRA Modulation

1️⃣ 一句话总结

这篇论文提出了一种名为‘衔尾蛇’的新方法，通过一个轻量级的控制器网络，让递归神经网络中的共享权重模块在每次循环时都能根据当前输入动态调整，从而显著提升了模型性能，同时只增加了很少的可训练参数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02119

arXiv 提交日期: 2026-04-02

llm model training systems model compression low-rank factorization svd parameter efficiency transformer optimization

AA-SVD：用于大语言模型压缩的锚定自适应奇异值分解方法 / AA-SVD : Anchored and Adaptive SVD for Large Language Model Compression

1️⃣ 一句话总结

这篇论文提出了一种新的快速压缩大语言模型的方法，它通过同时考虑原始模型输出和压缩过程中的数据分布变化，实现了无需重新训练就能高效压缩数十亿参数模型，并且在高压縮比下性能显著优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00421

arXiv 提交日期: 2026-04-01

model training machine learning systems mixture-of-experts routing mechanism parameter efficiency language modeling image classification

自路由：基于隐藏状态的免参数专家路由机制 / Self-Routing: Parameter-Free Expert Routing from Hidden States

1️⃣ 一句话总结

这篇论文提出了一种名为“自路由”的新方法，它无需额外的学习参数，直接利用模型内部隐藏状态的一部分信息来决定如何分配计算任务给不同的专家模块，在保持性能的同时简化了混合专家模型的结构并提升了资源利用的均衡性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00590

arXiv 提交日期: 2026-04-01

model training systems machine learning recommendation systems scaling laws unified architecture parameter efficiency feature mixing

UniMixer：推荐系统中实现缩放定律的统一架构 / UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

1️⃣ 一句话总结

这篇论文提出了一个名为UniMixer的统一架构，通过将推荐系统中主流的注意力、TokenMixer和因子分解机等不同缩放方法整合到一个理论框架内，并设计了更高效的轻量版模块，从而在减少计算成本的同时显著提升了模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28534

arXiv 提交日期: 2026-03-30

llm model training machine learning model compression tensor decomposition transformer parameter efficiency low-rank approximation

通过矩阵乘积算子分解压缩Transformer语言模型：以PicoGPT为例的研究 / Compressing Transformer Language Models via Matrix Product Operator Decomposition: A Case Study on PicoGPT

1️⃣ 一句话总结

这篇论文提出了一种名为矩阵乘积算子分解的新方法，能有效压缩Transformer语言模型的参数规模，在PicoGPT模型上实现了高达13倍的压缩率，同时保持了与原模型相近的准确率，为在资源有限的设备上部署大语言模型提供了新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.21884

arXiv 提交日期: 2026-03-23

model training computer vision aigc lora personalized image generation adaptive fine-tuning diffusion models parameter efficiency

并非所有层都生而平等：用于个性化图像生成的自适应LoRA秩 / Not All Layers Are Created Equal: Adaptive LoRA Ranks for Personalized Image Generation

1️⃣ 一句话总结

这篇论文提出了一种名为LoRA²的新方法，它能让AI模型在微调生成个性化图片时，自动为不同层分配合适的复杂度（即“秩”），从而在保证生成质量的同时，显著降低内存消耗和计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.21254

1️⃣ 一句话总结

arXiv ID: 2604.06440

1️⃣ 一句话总结

arXiv ID: 2604.06169

1️⃣ 一句话总结

arXiv ID: 2604.05267

1️⃣ 一句话总结

arXiv ID: 2604.02051

1️⃣ 一句话总结

arXiv ID: 2604.02119

1️⃣ 一句话总结

arXiv ID: 2604.00421

1️⃣ 一句话总结

arXiv ID: 2604.00590

1️⃣ 一句话总结

arXiv ID: 2603.28534

1️⃣ 一句话总结

arXiv ID: 2603.21884

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.21254 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06440 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06169 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05267 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02051 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02119 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00421 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00590 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28534 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.21884 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.21254

arXiv ID: 2604.06440

arXiv ID: 2604.06169

arXiv ID: 2604.05267

arXiv ID: 2604.02051

arXiv ID: 2604.02119

arXiv ID: 2604.00421

arXiv ID: 2604.00590

arXiv ID: 2603.28534

arXiv ID: 2603.21884