PSA:用于高效视频理解与生成的金字塔稀疏注意力机制 / PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation
1️⃣ 一句话总结
这篇论文提出了一种名为金字塔稀疏注意力的新方法,它通过多级池化来精细地保留关键信息,从而在显著降低计算成本的同时,有效减少了传统稀疏注意力机制在高稀疏度下的信息损失,使其在视频理解和生成任务中都能实现更优的效率与质量平衡。
请先 登录 后再提交论文
PSA:用于高效视频理解与生成的金字塔稀疏注意力机制 / PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation
这篇论文提出了一种名为金字塔稀疏注意力的新方法,它通过多级池化来精细地保留关键信息,从而在显著降低计算成本的同时,有效减少了传统稀疏注意力机制在高稀疏度下的信息损失,使其在视频理解和生成任务中都能实现更优的效率与质量平衡。
DeepSeek-V3.2:推动开源大语言模型的前沿 / DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
这篇论文介绍了DeepSeek-V3.2模型,它通过创新的稀疏注意力机制、可扩展的强化学习框架和大规模智能体任务合成流程,在保持高计算效率的同时,实现了媲美顶尖闭源模型的强大推理和智能体能力。
每个词元都重要:在大型语言模型中实现1600万超长上下文的泛化 / Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
这篇论文提出了一种名为‘分层稀疏注意力’的新方法,并将其集成到模型中,成功让一个80亿参数的AI模型能够高效处理和记住长达1600万个词的超长文本信息,在多项测试中表现出色。
SSA:通过特征空间中对齐完整与稀疏注意力输出的稀疏稀疏注意力 / SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space
这篇论文提出了一种名为SSA的新型训练框架,通过让稀疏注意力在每一层都与完整注意力的输出对齐,既保持了梯度更新到所有词元,又显著提升了模型在稀疏计算下的性能,同时支持灵活的计算与性能权衡。
Orion-MSP:面向表格上下文学习的多尺度稀疏注意力机制 / Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning
这篇论文提出了一个名为Orion-MSP的创新模型,通过多尺度特征处理和高效稀疏注意力机制,解决了现有表格数据处理方法在捕捉层次依赖和计算效率上的不足,实现了无需专门训练即可达到领先水平的表格数据学习能力。
通过令牌置换实现更稀疏的块稀疏注意力 / Sparser Block-Sparse Attention via Token Permutation
这篇论文提出了一种名为PBS-Attn的新方法,通过重新排列输入序列中令牌的顺序,使得大语言模型在处理长文本时能够更高效地跳过不必要的计算块,从而在保持高精度的同时将预处理速度提升最高2.75倍。
Adamas:用于高效长上下文推理的哈达玛稀疏注意力机制 / Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference
这篇论文提出了一种名为Adamas的新型稀疏注意力方法,它通过哈达玛变换和高效距离估计技术,在保持与完整注意力机制相近准确度的同时,大幅提升了长文本处理的速度和效率。
用于生成长视频的上下文混合方法 / Mixture of Contexts for Long Video Generation
本文提出了一种名为‘上下文混合’的新型注意力机制,通过让模型动态选择并关注视频中最关键的历史片段,解决了长视频生成中因计算量过大导致的内容记忆和一致性难题,从而能够高效生成长达数分钟且内容连贯的视频。