arXiv ID:
2601.17367
arXiv 提交日期: 2026-01-24
弹性注意力:面向高效Transformer的测试时自适应稀疏度比率 / Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers
1️⃣ 一句话总结
这篇论文提出了一种名为‘弹性注意力’的新方法,让大语言模型在处理长文本时,能够根据输入内容动态调整计算量,在保持高性能的同时实现更高效的推理。