arXiv ID:
2602.21371
交错头注意力机制 / Interleaved Head Attention
1️⃣ 一句话总结
这篇论文提出了一种名为‘交错头注意力’的新方法,通过让注意力头之间在计算时相互通信,有效解决了传统多头注意力机制在处理多步推理任务时信息不互通的问题,从而提升了大型语言模型在数学解题和复杂信息检索等任务上的表现。
交错头注意力机制 / Interleaved Head Attention
这篇论文提出了一种名为‘交错头注意力’的新方法,通过让注意力头之间在计算时相互通信,有效解决了传统多头注意力机制在处理多步推理任务时信息不互通的问题,从而提升了大型语言模型在数学解题和复杂信息检索等任务上的表现。
重访权重正则化在低秩持续学习中的应用 / Revisiting Weight Regularization for Low-Rank Continual Learning
这篇论文提出了一种名为EWC-LoRA的新方法,通过将经典的权重正则化技术应用于低秩适配器,有效解决了大规模预训练模型在持续学习中的任务干扰问题,同时保持了存储和计算开销的恒定。
用于扩散模型的高效文本引导卷积适配器 / Efficient Text-Guided Convolutional Adapter for the Diffusion Model
这篇论文提出了两种名为Nexus的高效适配器,它们能同时理解文本提示和结构输入(如草图),从而在保持图像结构的同时大幅减少模型参数量,提升了扩散模型的条件图像生成效率。
螺旋Transformer:通过多分辨率递归学习层次依赖关系的循环Transformer / SpiralFormer: Looped Transformers Can Learn Hierarchical Dependencies via Multi-Resolution Recursion
这篇论文提出了一种名为SpiralFormer的新型循环Transformer架构,它通过在不同分辨率(即不同信息压缩程度)的表示之间进行循环计算,让模型能够更高效地学习数据中的层次化依赖关系,从而在参数和计算效率上都超越了传统的循环和非循环Transformer模型。
晚到早训练:让大语言模型学得更早,从而更快更好 / Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better
这篇论文提出了一种名为‘晚到早训练’的新方法,它利用一个已经训练好的小模型来指导一个新的大模型在训练初期就学习到更深层的知识,从而显著加快训练速度并提升最终性能。
用13个参数学习推理 / Learning to Reason in 13 Parameters
这篇论文提出了一种名为TinyLoRA的新方法,它通过强化学习,仅用少至13个可训练参数就能让大型语言模型学会复杂的数学推理,性能接近使用成千上万参数的传统方法。
路由彩票:面向异构数据的自适应子网络 / Routing the Lottery: Adaptive Subnetworks for Heterogeneous Data
这篇论文提出了一种名为‘路由彩票’的自适应剪枝框架,它能在大型神经网络中为不同类型的数据自动发现并分配专门的、参数更少的子网络,从而在保持高性能的同时,让模型结构更好地匹配现实世界数据的多样性。
仅有知识还不够:注入强化学习技能以实现持续适应 / Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation
这篇论文提出了一种名为PaST的新方法,它能够将大语言模型从强化学习中获得的‘知识运用技能’模块化地提取出来,然后像‘打补丁’一样快速注入到经过简单微调的模型中,从而让模型不仅能记住新知识,还能更有效地利用这些知识来回答问题或完成任务。
VIBE:基于视觉指令的编辑器 / VIBE: Visual Instruction Based Editor
这篇论文提出了一个名为VIBE的高效图像编辑系统,它通过结合一个较小的视觉语言模型和一个轻量级扩散模型,在保持高质量编辑效果的同时,大幅降低了计算成本和内存需求,使其能在普通硬件上快速运行。
Falcon-H1R:利用混合模型推动推理前沿,实现高效测试时扩展 / Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling
这篇论文提出了一个名为Falcon-H1R的7B参数小型语言模型,它通过精心设计的数据、训练策略和混合并行架构,证明了小模型也能在复杂推理任务上达到甚至超越大模型的性能,同时实现更快的推理速度和更低的计算成本。
请先 登录 后再提交论文