arXiv ID:
2603.02599
arXiv 提交日期: 2026-03-03
SUN:共享下一词预测以实现高效的多LLM解耦服务 / SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving
1️⃣ 一句话总结
这篇论文提出了一种名为SUN的新方法,通过将大语言模型的解码部分冻结并共享给多个模型使用,显著提升了多模型同时服务时的GPU利用率和系统吞吐量,同时保持了模型的准确性。