arXiv ID:
2604.14626
arXiv 提交日期: 2026-04-16
ELMoE-3D:利用专家混合模型的内在弹性,通过混合键合技术实现本地部署中的自推测解码 / ELMoE-3D: Leveraging Intrinsic Elasticity of MoE for Hybrid-Bonding-Enabled Self-Speculative Decoding in On-Premises Serving
1️⃣ 一句话总结
这篇论文提出了一种名为ELMoE-3D的软硬件协同设计框架,它通过创新的‘弹性自推测解码’技术,有效结合了缓存加速和推测解码,从而显著提升了专家混合大模型在本地服务器上的运行速度和能效。