arXiv ID:
2512.13525
arXiv 提交日期: 2025-12-15
Janus:解耦注意力与专家模块以实现可扩展的MoE模型推理 / Janus: Disaggregating Attention and Experts for Scalable MoE Inference
1️⃣ 一句话总结
这篇论文提出了一个名为Janus的新型推理系统,它通过将大型混合专家模型中的注意力模块和专家模块拆分到不同的GPU集群上独立管理,从而解决了现有方案资源效率低、扩展性差的问题,显著提升了推理速度和系统吞吐量。