arXiv ID:
2606.29176
arXiv 提交日期: 2026-06-28
死方向调节器:面向深度网络的规范等变预处理方法 / Dead-Direction Conditioners: Gauge-Equivariant Preconditioning for Deep Networks
1️⃣ 一句话总结
本文提出了一种名为DDC的优化器增强方法,通过让优化器尊重神经网络参数的内在对称性(如缩放、旋转等),避免优化轨迹在对称方向上漂移,从而在语言模型和视觉模型上显著提升训练效果,并能精确测量模型中的‘死方向’(无效参数维度)。