arXiv ID:
2601.07832
arXiv 提交日期: 2026-01-12
MHLA:通过令牌级多头机制恢复线性注意力的表达能力 / MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head
1️⃣ 一句话总结
这篇论文提出了一种名为MHLA的新型线性注意力机制,它通过将输入数据分成多个独立的“头”来分别计算注意力,从而在保持计算效率的同时,有效解决了传统线性注意力模型表达能力下降的问题,并在图像分类、自然语言处理、图像生成和视频生成等多个任务上取得了显著的性能提升。