arXiv ID:
2512.10938
arXiv 提交日期: 2025-12-11
更强大的无归一化Transformer / Stronger Normalization-Free Transformers
1️⃣ 一句话总结
这篇论文提出了一种名为Derf的新型激活函数,它通过搜索发现并采用高斯累积分布函数,在无需传统归一化层的情况下,在图像识别、语音和DNA建模等多个领域超越了现有方法,主要得益于其更强的泛化能力。