arXiv ID:
2602.07958
arXiv 提交日期: 2026-02-08
基于词元级不确定性的LLM卸载中的精度-延迟权衡 / Accuracy-Delay Trade-Off in LLM Offloading via Token-Level Uncertainty
1️⃣ 一句话总结
这篇论文提出了一种基于词元级不确定性的智能卸载框架,通过动态选择在本地还是边缘服务器上执行大语言模型推理,在保证精度的同时有效降低了多用户环境下的延迟。