arXiv ID:
2601.04890
arXiv 提交日期: 2026-01-08
可学习的乘数:释放语言模型矩阵层的尺度 / Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers
1️⃣ 一句话总结
这篇论文提出了一种为语言模型的矩阵层引入可学习乘数的新方法,通过自动优化权重尺度来替代传统权重衰减导致的次优平衡,从而在不同优化器下都提升了模型性能。