arXiv最新AI论文速览速学

🔍

标签: #mixture-of-experts ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Less is MoE: Trimming Experts in Domain-Specialist Language Models 06-06

arXiv ID: 2511.20347

arXiv 提交日期: 2025-11-25

llm reinforcement learning model training policy optimization training stability mixture-of-experts mathematical reasoning adaptive clipping

软自适应策略优化 / Soft Adaptive Policy Optimization

1️⃣ 一句话总结

这项研究提出了一种名为SAPO的新方法，通过智能调节学习信号来提升大语言模型训练的稳定性和效率，相比现有技术能更灵活地平衡学习效果与稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.13344

arXiv 提交日期: 2025-11-17

computer vision model training machine learning object detection mixture-of-experts yolov9 adaptive routing model ensemble

YOLO与专家混合模型相遇：用于鲁棒目标检测的自适应专家路由 / YOLO Meets Mixture-of-Experts: Adaptive Expert Routing for Robust Object Detection

1️⃣ 一句话总结

这篇论文提出了一种新的目标检测方法，通过将多个YOLOv9-T模型组合成一个‘专家混合’系统，并让网络自动选择最合适的专家来处理不同图像特征，从而比单个模型更准确地识别和定位物体。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.12609

arXiv 提交日期: 2025-11-16

multi-modal model training llm mixture-of-experts multimodal generation progressive training cross-modal alignment omnimodal understanding

Uni-MoE-2.0-Omni：基于先进MoE、训练与数据扩展以语言为中心的全模态大模型 / Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

1️⃣ 一句话总结

这篇论文提出了一个名为Uni-MoE-2.0-Omni的全开源全模态大模型，它通过创新的动态专家混合架构、渐进式训练策略和高质量数据匹配技术，实现了在语言、图像、语音等多种模态上的高效理解与生成，并在多项评测中超越了现有领先模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.00279

arXiv 提交日期: 2025-10-31

multi-modal model training systems omni-modal model mixture-of-experts audio-visual interaction multimodal training large-scale model

LongCat-Flash-Omni 技术报告 / LongCat-Flash-Omni Technical Report

1️⃣ 一句话总结

这篇论文介绍了一个名为LongCat-Flash-Omni的5600亿参数开源全模态模型，它通过渐进式训练策略，实现了低延迟的实时音视频交互，并在多种模态任务中达到了顶尖性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.27656

arXiv 提交日期: 2025-10-31

systems llm model training rdma point-to-point communication network interface distributed systems mixture-of-experts

面向大语言模型系统的RDMA点对点通信 / RDMA Point-to-Point Communication for LLM Systems

1️⃣ 一句话总结

这篇论文提出了名为TransferEngine的通用通信接口，解决了大语言模型系统中不同硬件间点对点通信不兼容的问题，实现了高性能、可移植的数据传输，并在多个实际应用中显著提升了效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.22115

arXiv 提交日期: 2025-10-25

llm model training systems mixture-of-experts reasoning models scaling laws sparse activation parameter efficiency

每个激活都增强：将通用推理器扩展至万亿参数开放语言基础 / Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

1️⃣ 一句话总结

这篇论文提出了Ling 2.0系列模型，通过创新的稀疏激活和专家混合架构，在保持高计算效率的同时，将语言模型的推理能力成功扩展到了万亿参数规模。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.08008

arXiv 提交日期: 2025-10-09

llm model training machine learning mixture-of-experts model scaling checkpoint recycling efficient pretraining parameter expansion

循环利用预训练检查点：通过混合专家模型的正交增长实现高效大语言模型预训练 / Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training

1️⃣ 一句话总结

这篇论文提出了一种通过扩展已有预训练模型的参数规模来高效复用计算资源的方法，在混合专家模型上实现了深度和宽度的正交增长，相比从头训练在相同计算预算下能显著提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.14033

arXiv 提交日期: 2025-09-17

multi-modal model training natural language processing vision-language model multimodal reasoning mixture-of-experts progressive training benchmark evaluation

SAIL-VL2 技术报告 / SAIL-VL2 Technical Report

1️⃣ 一句话总结

SAIL-VL2是一个先进的开放视觉语言基础模型，通过大规模数据优化、渐进式训练和高效架构设计，在图像和视频理解任务中实现了顶尖性能，尤其在复杂推理任务上表现卓越。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.18672

arXiv 提交日期: 2025-08-26

llm model training machine learning mixture-of-experts scaling laws reasoning sparsity compute optimization

混合专家语言模型在推理任务中的最优稀疏性 / Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

1️⃣ 一句话总结

这项研究发现，混合专家模型在推理任务中的性能不仅取决于训练损失，更关键的是激活计算量和每个参数处理的数据量，推理能力需要大量数据支持，而记忆任务则受益于更多参数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2507.20534

arXiv 提交日期: 2025-07-28

llm agents model training mixture-of-experts reinforcement learning agentic intelligence model optimization software engineering

Kimi K2：开放代理智能 / Kimi K2: Open Agentic Intelligence

1️⃣ 一句话总结

这篇论文介绍了名为Kimi K2的先进开源大语言模型，它通过创新的优化技术和多阶段训练方法，在软件工程和自主代理任务中表现出顶尖性能，无需复杂思考过程就能高效处理多种复杂任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.20347

1️⃣ 一句话总结

arXiv ID: 2511.13344

1️⃣ 一句话总结

arXiv ID: 2511.12609

1️⃣ 一句话总结

arXiv ID: 2511.00279

1️⃣ 一句话总结

arXiv ID: 2510.27656

1️⃣ 一句话总结

arXiv ID: 2510.22115

1️⃣ 一句话总结

arXiv ID: 2510.08008

1️⃣ 一句话总结

arXiv ID: 2509.14033

1️⃣ 一句话总结

arXiv ID: 2508.18672

1️⃣ 一句话总结

arXiv ID: 2507.20534

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.20347 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.13344 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.12609 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.00279 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.27656 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.22115 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.08008 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.14033 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.18672 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2507.20534 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.20347

arXiv ID: 2511.13344

arXiv ID: 2511.12609

arXiv ID: 2511.00279

arXiv ID: 2510.27656

arXiv ID: 2510.22115

arXiv ID: 2510.08008

arXiv ID: 2509.14033

arXiv ID: 2508.18672

arXiv ID: 2507.20534