arXiv ID:
2603.27624
arXiv 提交日期: 2026-03-29
专家流式处理:通过多芯片粒架构与动态专家轨迹调度加速低批次MoE推理 / Expert Streaming: Accelerating Low-Batch MoE Inference via Multi-chiplet Architecture and Dynamic Expert Trajectory Scheduling
1️⃣ 一句话总结
这篇论文提出了一种名为‘全分片专家数据并行’的新方法,专门用于在由多个小芯片组成的高性能计算芯片上,高效运行低批次的专家混合模型,通过巧妙的动态调度和数据流设计,显著提升了推理速度并节省了大量芯片内存。