← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: systems llm
详细标签: llm serving autoscaling disaggregated architecture resource optimization production systems 或 搜索:

📄 论文总结

HeteroScale:面向解耦LLM服务的协调式自动扩缩容系统

HeteroScale: A Coordinated Autoscaling System for Disaggregated LLM Serving


1️⃣ 一句话总结

HeteroScale是一个针对Prefill-Decode解耦架构LLM服务的自动扩缩容系统,通过协调调度、网络感知和基于大规模生产数据的指标驱动策略,解决了异构硬件效率低、网络瓶颈和架构失衡三大核心挑战,在字节跳动生产环境中显著提升了资源利用率和系统性能。


2️⃣ 论文创新点

1. P/D解耦架构优化

2. 协调式自动扩缩容框架

3. 网络感知调度抽象

4. 数据驱动的扩缩策略

5. 系统稳定性机制


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF