arXiv最新AI论文速览速学

🔍

标签: #mixture-of-experts ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design 03-12

arXiv ID: 2603.10379

arXiv 提交日期: 2026-03-11

model training theory systems mixture-of-experts scaling laws compute allocation model architecture sparse models

混合专家模型中专家与注意力模块的最优计算分配：动态模型设计的可扩展法则 / Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design

1️⃣ 一句话总结

这篇论文为混合专家模型找到了一个明确的数学公式，可以像调节配方一样，根据总计算量和模型稀疏度，自动确定分配给专家模块和注意力模块的最优计算比例，从而在固定计算预算下设计出性能最好的模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04791

arXiv 提交日期: 2026-03-05

model training machine learning data time series foundation model mixture-of-experts serial scaling forecasting

Timer-S1：一个具有序列缩放能力的十亿级时间序列基础模型 / Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

1️⃣ 一句话总结

这篇论文提出了一个名为Timer-S1的强大时间序列基础模型，它通过创新的序列缩放方法解决了现有模型扩展的瓶颈，在保持高效推理的同时，利用海量数据和新的训练目标，在时间序列预测任务上取得了顶尖的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04348

arXiv 提交日期: 2026-03-04

medical multi-modal model training pathology report generation mixture-of-experts retrieval re-ranking whole slide images medical image captioning

RANGER：一种用于病理报告生成的、具有自适应检索重排的稀疏门控专家混合模型 / RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

1️⃣ 一句话总结

这篇论文提出了一种名为RANGER的新模型，它通过让多个‘专家’网络动态协作并智能筛选外部知识库信息，来更准确、更专业地自动生成病理报告。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19163

arXiv 提交日期: 2026-02-22

aigc multi-modal model training audio-video generation diffusion transformer preference optimization temporal alignment mixture-of-experts

JavisDiT++：面向联合音视频生成的统一建模与优化 / JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为JavisDiT++的新框架，它通过创新的专家混合模块、时序对齐技术和人类偏好优化方法，显著提升了根据文字描述同时生成高质量、音画同步视频的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14039

arXiv 提交日期: 2026-02-15

model training natural language processing machine learning mixture-of-experts embedding models geometry-preserving aggregation text embedding

面向专家混合嵌入模型的几何保持聚合方法 / Geometry-Preserving Aggregation for Mixture-of-Experts Embedding Models

1️⃣ 一句话总结

这篇论文发现当前专家混合嵌入模型使用的线性聚合方法会扭曲向量的几何结构，导致性能下降，并提出了一种新的球形聚合方法来解决这个问题，在不增加训练成本的情况下提升了模型在多项任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08794

arXiv 提交日期: 2026-02-09

video generation multi-modal aigc audio-visual generation mixture-of-experts open-source lip sync multimodal modeling

MOVA：迈向可扩展且同步的视频-音频生成 / MOVA: Towards Scalable and Synchronized Video-Audio Generation

1️⃣ 一句话总结

这篇论文介绍了一个名为MOVA的开源模型，它能够一次性生成高质量且口型、音效、音乐都与画面内容同步的视听内容，旨在解决现有生成模型常忽略音频或依赖低效级联流程的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.01990

arXiv 提交日期: 2026-02-02

multi-modal model training llm continual learning mixture-of-experts instruction tuning router drift multimodal llms

SAME：用于多模态持续指令微调的稳定专家混合模型 / SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning

1️⃣ 一句话总结

本文提出了一种名为SAME的新方法，通过稳定专家选择和更新过程，有效解决了多模态大语言模型在持续学习新任务时出现的性能遗忘和干扰问题，从而在无需重复训练旧数据的情况下，实现了更稳定、高效的能力扩展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21349

arXiv 提交日期: 2026-01-29

model training machine learning systems mixture-of-experts routing mechanism low-rank lipschitz continuity model scaling

L2R：用于专家混合模型（MoE）的低秩与利普希茨约束路由方法 / L2R: Low-Rank and Lipschitz-Controlled Routing for Mixture-of-Experts

1️⃣ 一句话总结

本文提出了一种名为L2R的新路由框架，通过将专家分配过程转移到共享的低维空间并引入平滑的评分机制，有效解决了专家混合模型中路由不稳定和专家分工不明确的问题，从而显著提升了模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17111

arXiv 提交日期: 2026-01-23

systems model training machine learning mixture-of-experts load balancing expert parallelism distributed training model inference

最小负载专家并行：一种针对不平衡专家混合模型的负载均衡方法 / Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts

1️⃣ 一句话总结

本文提出了一种名为‘最小负载专家并行’的新算法，它通过动态地将过载设备上的计算任务和参数转移到空闲设备上，有效解决了专家混合模型在推理时因任务分配不均导致的设备性能瓶颈问题，从而大幅提升了模型运行速度和内存使用效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.08881

arXiv 提交日期: 2026-01-12

model training multi-modal aigc mixture-of-experts image generation image editing task-aware routing diffusion transformers

TAG-MoE：面向统一生成模型的专家混合任务感知门控机制 / TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts

1️⃣ 一句话总结

这篇论文提出了一种让专家混合模型能‘看懂任务’的新方法，通过给任务添加语义标签并引导模型内部路由与之对齐，有效解决了统一图像生成与编辑模型中不同任务相互干扰的问题，从而提升了生成效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10379

1️⃣ 一句话总结

arXiv ID: 2603.04791

1️⃣ 一句话总结

arXiv ID: 2603.04348

1️⃣ 一句话总结

arXiv ID: 2602.19163

1️⃣ 一句话总结

arXiv ID: 2602.14039

1️⃣ 一句话总结

arXiv ID: 2602.08794

1️⃣ 一句话总结

arXiv ID: 2602.01990

1️⃣ 一句话总结

arXiv ID: 2601.21349

1️⃣ 一句话总结

arXiv ID: 2601.17111

1️⃣ 一句话总结

arXiv ID: 2601.08881

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10379 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04791 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04348 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19163 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14039 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08794 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.01990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21349 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17111 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.08881 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10379

arXiv ID: 2603.04791

arXiv ID: 2603.04348

arXiv ID: 2602.19163

arXiv ID: 2602.14039

arXiv ID: 2602.08794

arXiv ID: 2602.01990

arXiv ID: 2601.21349

arXiv ID: 2601.17111

arXiv ID: 2601.08881