arXiv ID:
2602.16603
arXiv 提交日期: 2026-02-18
FlowPrefill:将抢占与预填充调度粒度解耦以缓解大语言模型服务中的队头阻塞 / FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving
1️⃣ 一句话总结
这篇论文提出了一种名为FlowPrefill的新系统,它通过将任务抢占的精细度与调度频率分开处理,巧妙地解决了大语言模型服务中长任务阻塞高优先级任务的问题,从而在保证快速响应的同时大幅提升了系统整体处理能力。