arXiv ID:
2604.21632
arXiv 提交日期: 2026-04-23
看见未见过:Transformer在符号推理中的泛化能力研究 / To See the Unseen: on the Generalization Ability of Transformers in Symbolic Reasoning
1️⃣ 一句话总结
该论文揭示了解码器型Transformer模型在处理包含未见过变量名的命题逻辑推理问题时,其泛化失败的关键原因在于模型最后一层权重(解嵌入层)对未见过变量产生了“表示坍塌”——它们几乎被映射到相同的向量,导致模型难以区分不同新变量;基于此发现,作者提出结合架构微调、数据多样性与嵌入层重置等策略,成功实现了对未见过符号的高效泛化。