arXiv ID:
2511.20347
软自适应策略优化 / Soft Adaptive Policy Optimization
1️⃣ 一句话总结
这项研究提出了一种名为SAPO的新方法,通过智能调节学习信号来提升大语言模型训练的稳定性和效率,相比现有技术能更灵活地平衡学习效果与稳定性。
软自适应策略优化 / Soft Adaptive Policy Optimization
这项研究提出了一种名为SAPO的新方法,通过智能调节学习信号来提升大语言模型训练的稳定性和效率,相比现有技术能更灵活地平衡学习效果与稳定性。
YOLO与专家混合模型相遇:用于鲁棒目标检测的自适应专家路由 / YOLO Meets Mixture-of-Experts: Adaptive Expert Routing for Robust Object Detection
这篇论文提出了一种新的目标检测方法,通过将多个YOLOv9-T模型组合成一个‘专家混合’系统,并让网络自动选择最合适的专家来处理不同图像特征,从而比单个模型更准确地识别和定位物体。
Uni-MoE-2.0-Omni:基于先进MoE、训练与数据扩展以语言为中心的全模态大模型 / Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data
这篇论文提出了一个名为Uni-MoE-2.0-Omni的全开源全模态大模型,它通过创新的动态专家混合架构、渐进式训练策略和高质量数据匹配技术,实现了在语言、图像、语音等多种模态上的高效理解与生成,并在多项评测中超越了现有领先模型。
LongCat-Flash-Omni 技术报告 / LongCat-Flash-Omni Technical Report
这篇论文介绍了一个名为LongCat-Flash-Omni的5600亿参数开源全模态模型,它通过渐进式训练策略,实现了低延迟的实时音视频交互,并在多种模态任务中达到了顶尖性能。
面向大语言模型系统的RDMA点对点通信 / RDMA Point-to-Point Communication for LLM Systems
这篇论文提出了名为TransferEngine的通用通信接口,解决了大语言模型系统中不同硬件间点对点通信不兼容的问题,实现了高性能、可移植的数据传输,并在多个实际应用中显著提升了效率。
每个激活都增强:将通用推理器扩展至万亿参数开放语言基础 / Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation
这篇论文提出了Ling 2.0系列模型,通过创新的稀疏激活和专家混合架构,在保持高计算效率的同时,将语言模型的推理能力成功扩展到了万亿参数规模。
循环利用预训练检查点:通过混合专家模型的正交增长实现高效大语言模型预训练 / Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training
这篇论文提出了一种通过扩展已有预训练模型的参数规模来高效复用计算资源的方法,在混合专家模型上实现了深度和宽度的正交增长,相比从头训练在相同计算预算下能显著提升模型性能。
SAIL-VL2 技术报告 / SAIL-VL2 Technical Report
SAIL-VL2是一个先进的开放视觉语言基础模型,通过大规模数据优化、渐进式训练和高效架构设计,在图像和视频理解任务中实现了顶尖性能,尤其在复杂推理任务上表现卓越。
混合专家语言模型在推理任务中的最优稀疏性 / Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks
这项研究发现,混合专家模型在推理任务中的性能不仅取决于训练损失,更关键的是激活计算量和每个参数处理的数据量,推理能力需要大量数据支持,而记忆任务则受益于更多参数。
Kimi K2:开放代理智能 / Kimi K2: Open Agentic Intelligence
这篇论文介绍了名为Kimi K2的先进开源大语言模型,它通过创新的优化技术和多阶段训练方法,在软件工程和自主代理任务中表现出顶尖性能,无需复杂思考过程就能高效处理多种复杂任务。
请先 登录 后再提交论文