arXiv最新AI论文速览速学

🔍

标签: #parameter efficiency ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Parameter-Efficient Generative Modeling with Controlled Vector Fields 06-01

arXiv ID: 2602.21371

arXiv 提交日期: 2026-02-24

llm model training theory attention mechanism multi-head attention reasoning parameter efficiency transformer architecture

交错头注意力机制 / Interleaved Head Attention

1️⃣ 一句话总结

这篇论文提出了一种名为‘交错头注意力’的新方法，通过让注意力头之间在计算时相互通信，有效解决了传统多头注意力机制在处理多步推理任务时信息不互通的问题，从而提升了大型语言模型在数学解题和复杂信息检索等任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17559

arXiv 提交日期: 2026-02-19

model training machine learning natural language processing continual learning weight regularization low-rank adaptation parameter efficiency task interference

重访权重正则化在低秩持续学习中的应用 / Revisiting Weight Regularization for Low-Rank Continual Learning

1️⃣ 一句话总结

这篇论文提出了一种名为EWC-LoRA的新方法，通过将经典的权重正则化技术应用于低秩适配器，有效解决了大规模预训练模型在持续学习中的任务干扰问题，同时保持了存储和计算开销的恒定。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14514

arXiv 提交日期: 2026-02-16

computer vision model training aigc diffusion models conditional generation efficient adaptation multimodal conditioning parameter efficiency

用于扩散模型的高效文本引导卷积适配器 / Efficient Text-Guided Convolutional Adapter for the Diffusion Model

1️⃣ 一句话总结

这篇论文提出了两种名为Nexus的高效适配器，它们能同时理解文本提示和结构输入（如草图），从而在保持图像结构的同时大幅减少模型参数量，提升了扩散模型的条件图像生成效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11698

arXiv 提交日期: 2026-02-12

model training theory natural language processing looped transformers multi-resolution recursion hierarchical dependencies parameter efficiency computational depth

螺旋Transformer：通过多分辨率递归学习层次依赖关系的循环Transformer / SpiralFormer: Looped Transformers Can Learn Hierarchical Dependencies via Multi-Resolution Recursion

1️⃣ 一句话总结

这篇论文提出了一种名为SpiralFormer的新型循环Transformer架构，它通过在不同分辨率（即不同信息压缩程度）的表示之间进行循环计算，让模型能够更高效地学习数据中的层次化依赖关系，从而在参数和计算效率上都超越了传统的循环和非循环Transformer模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05393

arXiv 提交日期: 2026-02-05

llm model training machine learning knowledge transfer training acceleration representation learning pretraining parameter efficiency

晚到早训练：让大语言模型学得更早，从而更快更好 / Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better

1️⃣ 一句话总结

这篇论文提出了一种名为‘晚到早训练’的新方法，它利用一个已经训练好的小模型来指导一个新的大模型在训练初期就学习到更深层的知识，从而显著加快训练速度并提升最终性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04118

arXiv 提交日期: 2026-02-04

llm model training theory parameter efficiency reinforcement learning reasoning low-rank adaptation model scaling

用13个参数学习推理 / Learning to Reason in 13 Parameters

1️⃣ 一句话总结

这篇论文提出了一种名为TinyLoRA的新方法，它通过强化学习，仅用少至13个可训练参数就能让大型语言模型学会复杂的数学推理，性能接近使用成千上万参数的传统方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.22141

arXiv 提交日期: 2026-01-29

model training machine learning theory neural network pruning lottery ticket hypothesis adaptive subnetworks data heterogeneity parameter efficiency

路由彩票：面向异构数据的自适应子网络 / Routing the Lottery: Adaptive Subnetworks for Heterogeneous Data

1️⃣ 一句话总结

这篇论文提出了一种名为‘路由彩票’的自适应剪枝框架，它能在大型神经网络中为不同类型的数据自动发现并分配专门的、参数更少的子网络，从而在保持高性能的同时，让模型结构更好地匹配现实世界数据的多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.11258

arXiv 提交日期: 2026-01-16

llm model training agents reinforcement learning skill transfer continual learning parameter efficiency tool use

仅有知识还不够：注入强化学习技能以实现持续适应 / Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

1️⃣ 一句话总结

这篇论文提出了一种名为PaST的新方法，它能够将大语言模型从强化学习中获得的‘知识运用技能’模块化地提取出来，然后像‘打补丁’一样快速注入到经过简单微调的模型中，从而让模型不仅能记住新知识，还能更有效地利用这些知识来回答问题或完成任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02242

arXiv 提交日期: 2026-01-05

computer vision model training aigc instruction-based image editing diffusion models parameter efficiency visual language models image generation

VIBE：基于视觉指令的编辑器 / VIBE: Visual Instruction Based Editor

1️⃣ 一句话总结

这篇论文提出了一个名为VIBE的高效图像编辑系统，它通过结合一个较小的视觉语言模型和一个轻量级扩散模型，在保持高质量编辑效果的同时，大幅降低了计算成本和内存需求，使其能在普通硬件上快速运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02346

arXiv 提交日期: 2026-01-05

llm model training model evaluation reasoning models parameter efficiency test-time scaling chain-of-thought hybrid architecture

Falcon-H1R：利用混合模型推动推理前沿，实现高效测试时扩展 / Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

1️⃣ 一句话总结

这篇论文提出了一个名为Falcon-H1R的7B参数小型语言模型，它通过精心设计的数据、训练策略和混合并行架构，证明了小模型也能在复杂推理任务上达到甚至超越大模型的性能，同时实现更快的推理速度和更低的计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.21371

1️⃣ 一句话总结

arXiv ID: 2602.17559

1️⃣ 一句话总结

arXiv ID: 2602.14514

1️⃣ 一句话总结

arXiv ID: 2602.11698

1️⃣ 一句话总结

arXiv ID: 2602.05393

1️⃣ 一句话总结

arXiv ID: 2602.04118

1️⃣ 一句话总结

arXiv ID: 2601.22141

1️⃣ 一句话总结

arXiv ID: 2601.11258

1️⃣ 一句话总结

arXiv ID: 2601.02242

1️⃣ 一句话总结

arXiv ID: 2601.02346

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.21371 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17559 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14514 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11698 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05393 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04118 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.22141 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.11258 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02242 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02346 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.21371

arXiv ID: 2602.17559

arXiv ID: 2602.14514

arXiv ID: 2602.11698

arXiv ID: 2602.05393

arXiv ID: 2602.04118

arXiv ID: 2601.22141

arXiv ID: 2601.11258

arXiv ID: 2601.02242

arXiv ID: 2601.02346