arXiv ID:
2603.08343
arXiv 提交日期: 2026-03-09
重新思考注意力输出投影:用于高效Transformer的结构化哈达玛变换 / Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers
1️⃣ 一句话总结
这篇论文提出用一种固定的、无需参数的哈达玛变换加上一个轻量级可学习的缩放操作,来替代Transformer中计算量大、参数多的注意力输出投影层,能在保持模型性能的同时显著减少参数、内存消耗并提升推理速度。