arXiv ID:
2606.29519
arXiv 提交日期: 2026-06-28
递归神经网络中的抗塌缩动力学与多时间尺度学习的涌现 / Anti-Collapse Dynamics and the Emergence of Multi-Time-Scale Learning in Recurrent Neural Networks
1️⃣ 一句话总结
本文发现,递归神经网络在训练中会出现两种截然不同的学习状态:一种是常见的“塌缩”状态,网络只能快速遗忘过去信息,导致无法学习长期依赖;另一种是少见的“抗塌缩”状态,网络能维持缓慢的幂律遗忘,从而有效处理长时间跨度的任务,而这种状态的实现依赖于训练过程中罕见的“重尾”波动来平衡参数更新带来的时间尺度收缩。