大规模AI模型中稀疏专家混合模型无辅助损失负载均衡的理论框架 / A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models
1️⃣ 一句话总结
这篇论文为一种无需额外损失函数就能平衡AI大模型中专家工作负载的新方法,建立了一个坚实的数学理论框架,并通过实验验证了其有效性,有助于更高效地利用昂贵的计算资源。
请先 登录 后再提交论文
大规模AI模型中稀疏专家混合模型无辅助损失负载均衡的理论框架 / A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models
这篇论文为一种无需额外损失函数就能平衡AI大模型中专家工作负载的新方法,建立了一个坚实的数学理论框架,并通过实验验证了其有效性,有助于更高效地利用昂贵的计算资源。
理解与利用统一多模态模型中的稀疏性 / Understanding and Harnessing Sparsity in Unified Multimodal Models
这篇论文通过分析发现,统一多模态模型中的理解部分可以大幅压缩而不影响性能,但生成部分对压缩非常敏感,为此作者提出了一种基于稀疏激活的专家混合适配方法,使模型在仅激活约一半参数的情况下,就能达到与完整模型相当的性能。
Qwen3-VL技术报告 / Qwen3-VL Technical Report
这篇论文介绍了通义千问系列目前最强的多模态大模型Qwen3-VL,它在文本理解、长上下文处理以及图像视频推理方面都表现卓越,并提供了从轻量到超大规模的不同版本,旨在成为现实应用中多模态智能的核心引擎。
YOLO与专家混合模型相遇:用于鲁棒目标检测的自适应专家路由 / YOLO Meets Mixture-of-Experts: Adaptive Expert Routing for Robust Object Detection
这篇论文提出了一种新的目标检测方法,通过将多个YOLOv9-T模型组合成一个‘专家混合’系统,并让网络自动选择最合适的专家来处理不同图像特征,从而比单个模型更准确地识别和定位物体。
利用大语言模型稳定强化学习:公式化与实践 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
这篇论文通过理论分析和大量实验,解释了如何通过减少训练与推理的差异以及策略过时问题,来稳定大语言模型的强化学习训练,并提出了结合重要性采样、梯度裁剪和路由重放等技术的实用方案。
软自适应策略优化 / Soft Adaptive Policy Optimization
这项研究提出了一种名为SAPO的新方法,通过智能调节学习信号来提升大语言模型训练的稳定性和效率,相比现有技术能更灵活地平衡学习效果与稳定性。
Uni-MoE-2.0-Omni:基于先进MoE、训练与数据扩展以语言为中心的全模态大模型 / Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data
这篇论文提出了一个名为Uni-MoE-2.0-Omni的全开源全模态大模型,它通过创新的动态专家混合架构、渐进式训练策略和高质量数据匹配技术,实现了在语言、图像、语音等多种模态上的高效理解与生成,并在多项评测中超越了现有领先模型。
LongCat-Flash-Omni 技术报告 / LongCat-Flash-Omni Technical Report
这篇论文介绍了一个名为LongCat-Flash-Omni的5600亿参数开源全模态模型,它通过渐进式训练策略,实现了低延迟的实时音视频交互,并在多种模态任务中达到了顶尖性能。
面向大语言模型系统的RDMA点对点通信 / RDMA Point-to-Point Communication for LLM Systems
这篇论文提出了名为TransferEngine的通用通信接口,解决了大语言模型系统中不同硬件间点对点通信不兼容的问题,实现了高性能、可移植的数据传输,并在多个实际应用中显著提升了效率。
每个激活都增强:将通用推理器扩展至万亿参数开放语言基础 / Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation
这篇论文提出了Ling 2.0系列模型,通过创新的稀疏激活和专家混合架构,在保持高计算效率的同时,将语言模型的推理能力成功扩展到了万亿参数规模。