🤖 系统
11-30 19:49
📄 论文总结
SSA:通过特征空间中对齐完整与稀疏注意力输出的稀疏稀疏注意力 / SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space
1️⃣ 一句话总结
这篇论文提出了一种名为SSA的新型训练框架,通过让稀疏注意力在每一层都与完整注意力的输出对齐,既保持了梯度更新到所有词元,又显著提升了模型在稀疏计算下的性能,同时支持灵活的计算与性能权衡。