arXiv ID:
2602.11530
arXiv 提交日期: 2026-02-12
PASCAL:一种用于服务基于推理的大语言模型的阶段感知调度算法 / PASCAL: A Phase-Aware Scheduling Algorithm for Serving Reasoning-based Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为PASCAL的智能调度算法,它通过识别并优先处理大语言模型的‘思考’阶段来显著加快首个输出词的生成速度,同时巧妙管理‘回答’阶段的资源分配,从而在保证回答质量的前提下,大幅提升了推理类AI服务的响应效率。