arXiv ID:
2604.07472
arXiv 提交日期: 2026-04-08
快速异构服务:面向SLO约束推理的可扩展混合规模大语言模型分配 / Fast Heterogeneous Serving: Scalable Mixed-Scale LLM Allocation for SLO-Constrained Inference
1️⃣ 一句话总结
这篇论文提出了两种高效的算法,能在满足延迟、准确率和预算等严格约束的前提下,快速地为大语言模型推理服务自动选择和配置不同型号的GPU资源,在保证服务质量的同时大幅降低了计算成本。