arXiv ID:
2606.22840
arXiv 提交日期: 2026-06-22
RLM-Cascade:一种在响应层面进行推测解码、降低大语言模型API服务成本的代理层系统 / RLM-Cascade: Response-Level Speculative Decoding for Cost-Efficient LLM API Serving
1️⃣ 一句话总结
本文提出了RLM-Cascade,一个在LLM API之上搭建的“代理层”系统,它通过让一个小模型先快速生成回答草稿,再由一个“路由”机制判断是否直接使用这个草稿、或交给大模型精修、或完全跳过小模型,在无需改动底层大模型的前提下,将编程助手场景下的API调用成本降低了近46%,同时还将响应速度提升了近一倍,且回答质量不降反升。