arXiv ID:
2604.28175
arXiv 提交日期: 2026-04-30
Strait:感知机器学习推理服务中的优先级与干扰 / Strait: Perceiving Priority and Interference in ML Inference Serving
1️⃣ 一句话总结
本文提出了一种名为Strait的机器学习推理服务系统,它通过预测GPU上的数据传输冲突和内核执行干扰,并据此进行优先级感知的任务调度,从而在高负载下显著减少高优先级推理请求的截止时间违反率,同时兼顾低优先级任务的性能。