arXiv ID:
2601.05167
arXiv 提交日期: 2026-01-08
RelayLLM:通过协同解码实现高效推理 / RelayLLM: Efficient Reasoning via Collaborative Decoding
1️⃣ 一句话总结
这篇论文提出了一种名为RelayLLM的新方法,它让小型语言模型在生成文本时像接力赛一样,只在遇到关键难题时才动态调用大型语言模型来帮忙,从而用极低的成本(仅调用1.07%的令牌)实现了接近大型模型的推理性能,大幅降低了计算开销。