arXiv ID:
2603.04127
用于Transformer的数据感知随机特征核 / Data-Aware Random Feature Kernel for Transformers
1️⃣ 一句话总结
这篇论文提出了一种名为DARKFormer的新型Transformer模型,它通过一种数据感知的随机特征核来高效近似注意力计算,在保持线性计算复杂度的同时,显著提升了模型在预训练后微调场景下的性能表现。