arXiv最新AI论文速览速学

🔍

标签: #model architecture ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Attention Residuals 03-17

arXiv ID: 2603.15031

arXiv 提交日期: 2026-03-16

llm model training theory residual connections attention mechanism layer normalization scaling laws model architecture

注意力残差 / Attention Residuals

1️⃣ 一句话总结

这篇论文提出了一种名为‘注意力残差’的新方法，它用可学习的注意力机制取代了传统大语言模型中固定权重的残差连接，从而让模型能根据输入内容动态选择性地组合不同深度的信息，有效缓解了深层网络中的信息稀释问题，并在实际训练中提升了模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10379

arXiv 提交日期: 2026-03-11

model training theory systems mixture-of-experts scaling laws compute allocation model architecture sparse models

混合专家模型中专家与注意力模块的最优计算分配：动态模型设计的可扩展法则 / Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design

1️⃣ 一句话总结

这篇论文为混合专家模型找到了一个明确的数学公式，可以像调节配方一样，根据总计算量和模型稀疏度，自动确定分配给专家模块和注意力模块的最优计算比例，从而在固定计算预算下设计出性能最好的模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03865

arXiv 提交日期: 2026-03-04

systems machine learning model training federated learning backdoor attacks model architecture adversarial robustness security

联邦学习中的结构感知分布式后门攻击 / Structure-Aware Distributed Backdoor Attacks in Federated Learning

1️⃣ 一句话总结

这篇论文发现，在联邦学习中，后门攻击的成功与否不仅取决于攻击策略本身，还高度依赖于模型内部结构对扰动的敏感度，并提出了两个量化指标来预测和利用这种结构依赖性，从而为设计更有效的防御方法提供了新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22962

arXiv 提交日期: 2026-02-26

model training machine learning systems scaling laws weather forecasting data-driven models compute budget model architecture

全球天气模型的缩放定律 / Scaling Laws of Global Weather Models

1️⃣ 一句话总结

这篇论文通过分析数据驱动天气模型的训练规律，发现与语言模型不同，天气模型通过增加模型宽度和延长训练时间比单纯堆叠深度更能有效提升预测性能，为优化未来天气模型设计提供了关键指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21215

arXiv 提交日期: 2026-01-29

medical model evaluation benchmark eeg decoding temporal context model architecture robustness evaluation neural signal processing

时间上下文与架构：自然脑电信号解码的基准研究 / Temporal Context and Architecture: A Benchmark for Naturalistic EEG Decoding

1️⃣ 一句话总结

这项研究通过对比不同深度学习模型在分析长时间脑电信号时的表现，发现模型架构与处理时间窗口长度之间存在关键交互，揭示了在追求高精度与保持模型稳健性之间存在明确的取舍关系。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.15892

arXiv 提交日期: 2026-01-22

llm model training natural language processing code generation diffusion models continual pretraining programming languages model architecture

Stable-DiffCoder：推进代码扩散大语言模型的前沿 / Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

1️⃣ 一句话总结

这篇论文提出了一种名为Stable-DiffCoder的新型代码生成模型，它采用创新的块扩散训练方法，在同等计算和数据条件下，其整体性能超越了传统的自回归模型，并且在代码编辑、推理及低资源编程语言任务上表现出额外优势。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14531

arXiv 提交日期: 2025-12-16

llm model training systems parameter efficiency feed-forward network adaptive computation model architecture expert mixture

VersatileFFN：通过自适应宽深复用实现大语言模型的参数高效化 / VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse

1️⃣ 一句话总结

这篇论文提出了一种名为VersatileFFN的新型前馈网络，它通过在同一套固定参数内，自适应地复用参数来拓宽模型宽度或加深处理深度，从而在不增加内存开销的前提下，有效提升了大语言模型处理不同难度任务的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.18890

arXiv 提交日期: 2025-11-24

llm model training systems small language models latency optimization model architecture efficient attention evolutionary search

Nemotron-Flash：迈向延迟最优的混合小型语言模型 / Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为Nemotron-Flash的新型混合小型语言模型，它通过优化模型深度与宽度的比例、选择高效的运算模块以及改进训练方法，在保证精度的同时，显著降低了模型在实际设备上的运行延迟并提高了处理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.15706

arXiv 提交日期: 2025-11-19

computer vision model training systems feature matching dense correspondence computer vision model architecture cuda optimization

RoMa v2：更强大、更优秀、更快速、更密集的特征匹配 / RoMa v2: Harder Better Faster Denser Feature Matching

1️⃣ 一句话总结

这篇论文提出了一种新的密集图像特征匹配模型，通过改进网络结构、训练策略和优化技术，在保持高精度的同时大幅提升了匹配速度和效率，适用于各种复杂场景。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.18245

arXiv 提交日期: 2025-10-21

llm model training theory scaling laws model architecture inference efficiency parameter allocation architectural optimization

缩放定律与模型架构：迈向推理高效的大型语言模型 / Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

1️⃣ 一句话总结

这篇论文通过引入包含模型架构信息的条件缩放定律和搜索框架，在保持高精度的同时显著提升了大型语言模型的推理效率，相比现有模型最高可提升42%的推理吞吐量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15031

1️⃣ 一句话总结

arXiv ID: 2603.10379

1️⃣ 一句话总结

arXiv ID: 2603.03865

1️⃣ 一句话总结

arXiv ID: 2602.22962

1️⃣ 一句话总结

arXiv ID: 2601.21215

1️⃣ 一句话总结

arXiv ID: 2601.15892

1️⃣ 一句话总结

arXiv ID: 2512.14531

1️⃣ 一句话总结

arXiv ID: 2511.18890

1️⃣ 一句话总结

arXiv ID: 2511.15706

1️⃣ 一句话总结

arXiv ID: 2510.18245

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15031 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10379 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03865 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22962 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21215 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.15892 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14531 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.18890 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.15706 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.18245 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15031

arXiv ID: 2603.10379

arXiv ID: 2603.03865

arXiv ID: 2602.22962

arXiv ID: 2601.21215

arXiv ID: 2601.15892

arXiv ID: 2512.14531

arXiv ID: 2511.18890

arXiv ID: 2511.15706

arXiv ID: 2510.18245