arXiv ID:
2606.26050
arXiv 提交日期: 2026-06-24
自然去神化:对预训练中哪些规则幸存的不对称控制 / Natural Ungrokking: Asymmetric Control of Which Rules Survive Pretraining
1️⃣ 一句话总结
这项研究发现,在语言模型预训练过程中,一个已经学会的规则(如代词性别匹配)会自然消失,即使训练数据中仍存在足够证据,且这种消失完全取决于训练数据中该规则被验证的频率,而且一旦规则消失,即使大量补充支持证据也无法恢复,说明模型对规则的遗忘是单向且不可逆的。