arXiv ID:
2605.19726
扩散语言模型中基于块近似稀疏注意力的长上下文高效建模 / Efficient Long-Context Modeling in Diffusion Language Models via Block Approximate Sparse Attention
1️⃣ 一句话总结
本文提出了一种名为BA-Att的块近似稀疏注意力框架,通过在压缩后的低分辨率空间中识别重要信息区域,而非依赖固定的位置模式,实现了扩散语言模型在处理超长文本时的高效计算,在保持近乎完整注意力性能的同时,将计算速度提升了近7倍。