arXiv ID:
2601.16515
SALAD:通过高效的线性注意力微调实现视频扩散Transformer的高稀疏性注意力 / SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer
1️⃣ 一句话总结
这篇论文提出了一种名为SALAD的新方法,通过在视频生成模型中巧妙地结合稀疏注意力和一个轻量级的线性注意力分支,并用一个智能门控机制来动态平衡两者,从而在几乎不损失生成质量的前提下,大幅提升了模型的计算效率,实现了90%的注意力稀疏度和1.72倍的推理加速,而且所需的训练数据和计算量非常少。