arXiv最新AI论文速览速学

🔍

标签: #parameter efficiency ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Parameter-Efficient Generative Modeling with Controlled Vector Fields 06-01

arXiv ID: 2605.28267

arXiv 提交日期: 2026-05-27

machine learning model training generative modeling continuous-time flows parameter efficiency controlled vector fields

基于受控向量场的参数高效生成模型 / Parameter-Efficient Generative Modeling with Controlled Vector Fields

1️⃣ 一句话总结

本文提出了一种新的生成模型方法，通过仅学习少量标量控制函数来调控一组固定的向量场，从而构建出可以高效生成复杂数据分布的连续时间流模型，大幅减少了需要学习的参数数量，并保持了模型的表达能力和可解释性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.26106

arXiv 提交日期: 2026-05-25

llm model training masked diffusion models transformer architecture parameter efficiency compute scaling reasoning benchmarks

循环扩散语言模型 / Looped Diffusion Language Models

1️⃣ 一句话总结

本文提出了一种名为LoopMDM的方法，通过在掩码扩散语言模型中有选择地循环使用早期到中期的Transformer层，在不增加参数的情况下实现了深度缩放效果，显著提升了训练效率（最高节省3.3倍计算量）和推理性能（在GSM8K等推理基准上提升高达8.5分），并且通过自适应调整循环次数进一步优化了计算效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.06665

arXiv 提交日期: 2026-05-07

machine learning model training systems mixture-of-experts architecture optimization routing mechanism parameter efficiency languagemodel

UniPool：用于混合专家模型的全局共享专家池 / UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

1️⃣ 一句话总结

该论文提出了一种名为UniPool的新型混合专家模型架构，它用一个全局共享的专家池取代了传统模型中每层独立的专家集合，使得不同层可以共用专家资源，从而在减少参数量的同时提升了模型性能，并打破了专家数量必须随层数线性增长的局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21254

arXiv 提交日期: 2026-04-23

llm model training model evaluation parameter efficiency looped transformer hyper-connections memory-efficient architecture

超环变压器 / Hyperloop Transformers

1️⃣ 一句话总结

本文提出一种名为超环变压器（Hyperloop Transformer）的新型语言模型架构，通过循环使用同一组中间层并结合超连接技术，在参数量减少约50%的情况下，仍能超越传统变压器模型的性能，尤其适合内存受限的设备端部署。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06440

arXiv 提交日期: 2026-04-07

computer vision model training machine learning visual prompting activation prompts fine-tuning vision transformers parameter efficiency

视觉提示的重新构想：激活提示的力量 / Visual prompting reimagined: The power of the Activation Prompts

1️⃣ 一句话总结

这篇论文提出了一种名为‘激活提示’的新方法，它通过在模型内部中间层的激活图上添加通用扰动，显著提升了视觉提示技术的性能与效率，超越了传统输入级视觉提示和参数微调方法，并在多种模型和数据集上验证了其优越性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06169

arXiv 提交日期: 2026-04-07

llm model training systems test-time training continual learning inference-time adaptation autoregressive language modeling parameter efficiency

原位测试时训练 / In-Place Test-Time Training

1️⃣ 一句话总结

这篇论文提出了一种名为‘原位测试时训练’的新方法，让大语言模型在推理时能像人一样边用边学、动态更新知识，从而更好地处理海量新信息，而无需从头开始昂贵地重新训练整个模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05267

arXiv 提交日期: 2026-04-07

llm model training model evaluation mixture of experts domain specialization training-free inference expert interpretation parameter efficiency

基于MoE的大语言模型中是否存在领域专家？ / Do Domain-specific Experts exist in MoE-based LLMs?

1️⃣ 一句话总结

这篇论文通过实证研究发现，基于混合专家架构的大语言模型中确实存在专注于特定领域的专家，并在此基础上提出了一种无需额外训练或推理成本的领域导向框架，有效提升了模型在目标和非目标领域的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02051

arXiv 提交日期: 2026-04-02

model training llm theory recursive transformers lora modulation hypernetwork parameter efficiency dynamic weights

衔尾蛇：通过输入条件化的LoRA调制实现递归变换器的动态权重生成 / Ouroboros: Dynamic Weight Generation for Recursive Transformers via Input-Conditioned LoRA Modulation

1️⃣ 一句话总结

这篇论文提出了一种名为‘衔尾蛇’的新方法，通过一个轻量级的控制器网络，让递归神经网络中的共享权重模块在每次循环时都能根据当前输入动态调整，从而显著提升了模型性能，同时只增加了很少的可训练参数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02119

arXiv 提交日期: 2026-04-02

llm model training systems model compression low-rank factorization svd parameter efficiency transformer optimization

AA-SVD：用于大语言模型压缩的锚定自适应奇异值分解方法 / AA-SVD : Anchored and Adaptive SVD for Large Language Model Compression

1️⃣ 一句话总结

这篇论文提出了一种新的快速压缩大语言模型的方法，它通过同时考虑原始模型输出和压缩过程中的数据分布变化，实现了无需重新训练就能高效压缩数十亿参数模型，并且在高压縮比下性能显著优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00421

arXiv 提交日期: 2026-04-01

model training machine learning systems mixture-of-experts routing mechanism parameter efficiency language modeling image classification

自路由：基于隐藏状态的免参数专家路由机制 / Self-Routing: Parameter-Free Expert Routing from Hidden States

1️⃣ 一句话总结

这篇论文提出了一种名为“自路由”的新方法，它无需额外的学习参数，直接利用模型内部隐藏状态的一部分信息来决定如何分配计算任务给不同的专家模块，在保持性能的同时简化了混合专家模型的结构并提升了资源利用的均衡性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.28267

1️⃣ 一句话总结

arXiv ID: 2605.26106

1️⃣ 一句话总结

arXiv ID: 2605.06665

1️⃣ 一句话总结

arXiv ID: 2604.21254

1️⃣ 一句话总结

arXiv ID: 2604.06440

1️⃣ 一句话总结

arXiv ID: 2604.06169

1️⃣ 一句话总结

arXiv ID: 2604.05267

1️⃣ 一句话总结

arXiv ID: 2604.02051

1️⃣ 一句话总结

arXiv ID: 2604.02119

1️⃣ 一句话总结

arXiv ID: 2604.00421

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.28267 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.26106 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.06665 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21254 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06440 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06169 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05267 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02051 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02119 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00421 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.28267

arXiv ID: 2605.26106

arXiv ID: 2605.06665

arXiv ID: 2604.21254

arXiv ID: 2604.06440

arXiv ID: 2604.06169

arXiv ID: 2604.05267

arXiv ID: 2604.02051

arXiv ID: 2604.02119

arXiv ID: 2604.00421