arXiv ID:
2603.15590
arXiv 提交日期: 2026-03-16
向混合xLSTM架构的有效知识蒸馏 / Effective Distillation to Hybrid xLSTM Architectures
1️⃣ 一句话总结
这篇论文提出了一种新的知识蒸馏方法,成功地将计算复杂的Transformer大语言模型压缩成更高效的xLSTM架构,在多个任务上几乎无损地保留了原模型的性能,为实现更节能、低成本的语言模型提供了重要途径。