arXiv ID:
2603.04716
arXiv 提交日期: 2026-03-05
面向满足服务水平目标的预填充-解码分离式大语言模型推理的计算资源分配 / SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference
1️⃣ 一句话总结
这篇论文提出了一种结合理论建模和实际测量的方法,来精确计算在满足特定服务质量和请求特征(如输入输出长度)的条件下,预填充和解码这两个关键阶段各自需要多少计算资源,从而高效部署大语言模型推理服务。