🤖 系统
09-01 15:51
📄 论文总结
HeteroScale:面向解耦LLM服务的协调式自动扩缩容系统
HeteroScale: A Coordinated Autoscaling System for Disaggregated LLM Serving
1️⃣ 一句话总结
HeteroScale是一个针对Prefill-Decode解耦架构LLM服务的自动扩缩容系统,通过协调调度、网络感知和基于大规模生产数据的指标驱动策略,解决了异构硬件效率低、网络瓶颈和架构失衡三大核心挑战,在字节跳动生产环境中显著提升了资源利用率和系统性能。
2️⃣ 论文创新点
1. P/D解耦架构优化
- 创新点是什么:将计算密集的prefill阶段与内存受限的decode阶段分离到不同实例集上,实现独立优化和资源调配
- 与已有方法的区别/改进:相比传统同质化部署,可降低41%的token生成成本,提高批处理效率和资源利用率
- 为什么有意义:为LLM推理服务提供了更高效的架构设计基础,适应异构硬件环境
2. 协调式自动扩缩容框架
- 创新点是什么:采用三层系统架构(自动扩缩层、联邦预调度层、子集群调度层)和混合扩缩策略,结合比例控制和反馈机制
- 与已有方法的区别/改进:克服传统基于硬件指标(如GPU利用率)的局限性,提供更精确的扩缩决策
- 为什么有意义:实现了高效资源管理和扩缩决策机制,能够动态适应变化的工作负载条件
3. 网络感知调度抽象
- 创新点是什么:引入Deployment Group逻辑抽象来强制执行网络亲和性约束,以及RDMA Subgroup基于网络拓扑管理资源优先级
- 与已有方法的区别/改进:确保prefill和decode实例共置以实现低延迟KV缓存传输,同时优化稀缺高性能硬件的使用
- 为什么有意义:提高了网络效率,减少了延迟,优化了资源分配
4. 数据驱动的扩缩策略
- 创新点是什么:首次使用大规模生产数据对P/D分离服务的自动扩缩指标进行实证分析,确立decode TPS作为最鲁棒的信号
- 与已有方法的区别/改进:使用单一信号协调扩缩prefill和decode池,保持架构平衡,避免传统硬件指标的误导
- 为什么有意义:实现了更准确和高效的自动扩缩,提高了系统响应性和资源利用率
5. 系统稳定性机制
- 创新点是什么:包含抗振荡机制(冷却期、滞后阈值、阻尼因子)和灾难恢复措施(软缩容),防止快速振荡缩容导致的资源浪费和系统不稳定
- 与已有方法的区别/改进:改进了传统的直接终止策略,通过观察期避免了因性能下降而需要重新启动新实例的延迟
- 为什么有意义:确保了生产环境中自动缩容系统的稳定运行,提高了系统可靠性
3️⃣ 主要结果与价值
实验结果亮点
- 在字节跳动生产环境中管理数万GPU,每日节省数十万GPU小时
- 平均GPU利用率提升26.6个百分点,SM活动提升9.2个百分点
- 在满足所有SLO的同时实现效率提升,建立了大规模LLM服务的新基准
实际应用价值
- 支持普通部署、P/D解耦和MoE解耦服务在内的多种部署模式
- 提供高效的资源管理和扩缩决策机制,适应变化的工作负载条件
- 增强了系统的弹性和稳定性,能够快速应对性能波动
4️⃣ 术语表
- Prefill-Decode (P/D):LLM推理中的两个阶段:prefill阶段计算密集,处理整个输入提示;decode阶段内存带宽受限,自回归生成token
- P/D Disaggregated Serving:一种LLM服务架构,将prefill和decode阶段分离到不同的实例集上,以实现独立优化和资源利用
- HeteroScale:针对P/D解耦LLM服务的自动扩缩容系统,提供协调、网络感知和资源高效的扩缩策略
- Deployment Group:逻辑容器,用于管理服务的prefill和decode角色,支持独立扩缩和网络亲和性约束
- Tokens-Per-Second (TPS):解码阶段生成令牌的速率,用作自动扩缩的关键指标,以维持系统平衡
- P/D Ratio:Prefill实例与Decode实例的比例,在扩缩过程中需要严格维护的架构完整性参数
- RDMA Subgroups:基于硬件特性分类的优先级系统,用于智能资源分配,防止低亲和性服务消耗优质资源