arXiv ID:
2605.21427
arXiv 提交日期: 2026-05-20
面向混合专家模型的功耗感知大语言模型服务系统 / PALS: Power-Aware LLM Serving for Mixture-of-Experts Models
1️⃣ 一句话总结
本文提出了一种名为PALS的功耗感知运行时系统,通过将GPU功率上限作为可调参数,与批次大小等软件配置联合优化,在保证服务吞吐量的前提下将大语言模型推理的能效最高提升26.3%,并显著降低了功耗约束下的服务质量违约率。