📄 论文总结
镜面推测解码:一种系统-算法协同设计的加速方法 / Mirror Speculative Decoding: A System-Algorithm Co-design for Accelerated Inference
1️⃣ 一句话总结
本文提出Mirror Speculative Decoding方法,通过系统-算法协同设计,在异构GPU-NPU架构上实现2.8-5.8倍的解码加速,同时保持输出质量不变。
2️⃣ 论文创新点
1. 镜面推测解码架构
- 创新点:一种双向推测解码方法,草稿模型预测目标模型的令牌延续,同时目标模型验证草稿的校正路径
- 区别/改进:通过并行执行和异构加速器映射,打破了延迟与接受率之间的权衡限制
- 意义:实现更高的接受率同时减少推测开销,推动推测解码接近理想状态
2. 异构推测解码架构
- 创新点:将草稿模型映射到计算密集的NPU,目标验证映射到高吞吐量GPU
- 区别/改进:利用未充分利用的加速器容量,重叠模型执行,减少GPU争用
- 意义:提高多加速器部署中的端到端延迟
3. 推测流处理技术
- 创新点:在草稿模型上应用推测流媒体技术,通过多流注意力在同一前向传递中验证先前令牌并生成新的推测令牌
- 区别/改进:加速推测生成过程,提供额外的并发性
- 意义:在不改变接受语义的前提下显著提升推测生成效率
4. 分段并行设计
- 创新点:目标模型使用Megatron风格的张量并行,草稿模型使用SPD风格分段
- 区别/改进:减少同步成本,扩展草稿容量,提高接受率
- 意义:优化系统性能而不增加关键路径延迟
3️⃣ 主要结果与价值
结果亮点
- 在SpecBench基准测试中实现2.8-5.8倍的端到端加速
- 在Qwen3-14B模型上平均加速3.8倍,在Qwen3-32B上加速3.78倍
- 长视野工作负载中表现尤为突出,数学推理任务达到5.84倍加速
- 在OPT和Mistral等不同模型家族上均表现出稳定的加速效果
实际价值
- 为大规模型服务提供低延迟解决方案
- 有效利用异构计算资源,提高硬件利用率
- 保持输出质量不变,实现无损加速
- 适用于复杂推理任务,扩展了推测解码的应用范围
4️⃣ 术语表
- Mirror Speculative Decoding (Mirror-SD):一种系统-算法协同设计的推测解码方法,通过重叠目标和草稿计算来加速LLM推理
- speculative decoding:使用计算成本更低的草稿模型生成候选令牌序列,然后由目标模型验证的加速推理方法
- autoregressive decoding:基于已生成令牌序列逐步预测下一个令牌的自回归生成过程
- Speculative Streaming (SS):一种推测机制,在同一前向传递中验证先前提出的令牌并生成新的推测令牌
- Multi-stream Attention (MSA):多流注意力机制,构建注意力掩码使不同流能够关注不同的上下文信息
- acceptance length:每个推测窗口中接受的令牌数量的期望值,平均跨步长和提示
- GPU-NPU:异构计算架构,结合图形处理器和神经处理单元