arXiv ID:
2603.15031
注意力残差 / Attention Residuals
1️⃣ 一句话总结
这篇论文提出了一种名为‘注意力残差’的新方法,它用可学习的注意力机制取代了传统大语言模型中固定权重的残差连接,从而让模型能根据输入内容动态选择性地组合不同深度的信息,有效缓解了深层网络中的信息稀释问题,并在实际训练中提升了模型性能。
注意力残差 / Attention Residuals
这篇论文提出了一种名为‘注意力残差’的新方法,它用可学习的注意力机制取代了传统大语言模型中固定权重的残差连接,从而让模型能根据输入内容动态选择性地组合不同深度的信息,有效缓解了深层网络中的信息稀释问题,并在实际训练中提升了模型性能。
混合专家模型中专家与注意力模块的最优计算分配:动态模型设计的可扩展法则 / Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design
这篇论文为混合专家模型找到了一个明确的数学公式,可以像调节配方一样,根据总计算量和模型稀疏度,自动确定分配给专家模块和注意力模块的最优计算比例,从而在固定计算预算下设计出性能最好的模型。
联邦学习中的结构感知分布式后门攻击 / Structure-Aware Distributed Backdoor Attacks in Federated Learning
这篇论文发现,在联邦学习中,后门攻击的成功与否不仅取决于攻击策略本身,还高度依赖于模型内部结构对扰动的敏感度,并提出了两个量化指标来预测和利用这种结构依赖性,从而为设计更有效的防御方法提供了新思路。
全球天气模型的缩放定律 / Scaling Laws of Global Weather Models
这篇论文通过分析数据驱动天气模型的训练规律,发现与语言模型不同,天气模型通过增加模型宽度和延长训练时间比单纯堆叠深度更能有效提升预测性能,为优化未来天气模型设计提供了关键指导。
时间上下文与架构:自然脑电信号解码的基准研究 / Temporal Context and Architecture: A Benchmark for Naturalistic EEG Decoding
这项研究通过对比不同深度学习模型在分析长时间脑电信号时的表现,发现模型架构与处理时间窗口长度之间存在关键交互,揭示了在追求高精度与保持模型稳健性之间存在明确的取舍关系。
Stable-DiffCoder:推进代码扩散大语言模型的前沿 / Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model
这篇论文提出了一种名为Stable-DiffCoder的新型代码生成模型,它采用创新的块扩散训练方法,在同等计算和数据条件下,其整体性能超越了传统的自回归模型,并且在代码编辑、推理及低资源编程语言任务上表现出额外优势。
VersatileFFN:通过自适应宽深复用实现大语言模型的参数高效化 / VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse
这篇论文提出了一种名为VersatileFFN的新型前馈网络,它通过在同一套固定参数内,自适应地复用参数来拓宽模型宽度或加深处理深度,从而在不增加内存开销的前提下,有效提升了大语言模型处理不同难度任务的能力。
Nemotron-Flash:迈向延迟最优的混合小型语言模型 / Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
这篇论文提出了一种名为Nemotron-Flash的新型混合小型语言模型,它通过优化模型深度与宽度的比例、选择高效的运算模块以及改进训练方法,在保证精度的同时,显著降低了模型在实际设备上的运行延迟并提高了处理速度。
RoMa v2:更强大、更优秀、更快速、更密集的特征匹配 / RoMa v2: Harder Better Faster Denser Feature Matching
这篇论文提出了一种新的密集图像特征匹配模型,通过改进网络结构、训练策略和优化技术,在保持高精度的同时大幅提升了匹配速度和效率,适用于各种复杂场景。
缩放定律与模型架构:迈向推理高效的大型语言模型 / Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs
这篇论文通过引入包含模型架构信息的条件缩放定律和搜索框架,在保持高精度的同时显著提升了大型语言模型的推理效率,相比现有模型最高可提升42%的推理吞吐量。
请先 登录 后再提交论文