arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2510.18413

🤖 系统

10-27 21:22

systems

sparse attention long context efficient transformers quantization gpu optimization

📄 论文总结

Adamas：一种轻量级高精度的稀疏注意力机制 / Adamas: A Lightweight High-Precision Sparse Attention Mechanism

1️⃣ 一句话总结

Adamas是一种创新的稀疏注意力机制，通过Hadamard变换、分桶和2位压缩技术实现高效的长上下文推理，在极低计算开销下达到与全注意力相当的性能。

2️⃣ 论文创新点

1. Hadamard变换稀疏注意力

创新点：利用Hadamard矩阵将查询和键变换为Hadamard向量，平滑值分布并抑制异常值
区别/改进：将复杂度从O(d²)降低到O(d log d)，支持2位量化
意义：显著减少长序列处理的计算和内存开销

2. 2位分桶量化策略

创新点：将Hadamard向量元素通过预定义阈值分桶为4个等级，编码为2位整数
区别/改进：相比1位分桶在小预算下表现更好，相比3位分桶在几乎不损失精度下更节省存储
意义：提供内存高效的长上下文处理方案，支持方法的可扩展性

3. 曼哈顿距离估计器

创新点：基于2位压缩表示的曼哈顿距离相似度估计，使用位级整数运算替代浮点运算
区别/改进：实现低内存占用和低计算开销的相似度计算
意义：在噪声和稀疏性下更鲁棒，适合整合分散信息

4. 高性能GPU内核

创新点：开发了融合分桶化和2位压缩的GPU内核，以及轻量级曼哈顿距离估计器
区别/改进：优化了计算效率，减少了存储开销
意义：在32K长度序列上实现4.4倍自注意力和1.5倍端到端加速

3️⃣ 主要结果与价值

结果亮点

仅使用64个token预算即可匹配全注意力的准确性，在128个token时达到近乎无损的性能
支持比先前SOTA方法高8倍的稀疏度，在32K长度序列上实现4.4倍自注意力加速
在PG19语言建模和passkey检索任务中始终优于StreamingLLM和Quest等基线方法
在低预算条件下(如16/32 tokens)仍能保持68%/85%的准确率，而Quest在相同条件下性能急剧下降

实际价值

显著提升长上下文推理效率，支持处理超长文本序列
为内存受限环境下的语言模型部署提供可行方案
在保持高精度的同时大幅降低计算成本，推动大模型的实际应用

4️⃣ 术语表

Adamas：一种轻量级高精度的稀疏注意力机制，结合Hadamard变换和分桶化实现高效KV对选择，用于长上下文推理
Hadamard变换：一种线性变换，使用Hadamard矩阵将查询和键变换为Hadamard向量，可用于抑制异常值特征，仅包含±1条目
PG19：用于评估预测置信度的长文本语言建模数据集
Passkey Retrieval：密码检索任务，用于测试模型在长上下文中检索信息的能力
LongBench：用于长上下文理解评估的基准测试，包含六个数据集，涵盖单文档QA、多文档QA、摘要和少样本学习等任务
静态稀疏方法：采用预定义稀疏模式的注意力优化方法，如滑动窗口或注意力汇聚点
Booookscore：书籍长度摘要任务的系统评估框架

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2510.18413

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. Hadamard变换稀疏注意力

2. 2位分桶量化策略

3. 曼哈顿距离估计器

4. 高性能GPU内核

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2510.18413 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. Hadamard变换稀疏注意力

2. 2位分桶量化策略

3. 曼哈顿距离估计器

4. 高性能GPU内核

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要

2510.18413