arXiv ID:
2602.03495
arXiv 提交日期: 2026-02-03
DALI:一种面向本地PC高效MoE推理的工作负载感知卸载框架 / DALI: A Workload-Aware Offloading Framework for Efficient MoE Inference on Local PCs
1️⃣ 一句话总结
本文提出了一种名为DALI的智能框架,它通过动态分配计算任务、精准预测和优化缓存策略,显著提升了在普通个人电脑上运行大型混合专家语言模型的效率和速度。