arXiv ID:
2604.12426
arXiv 提交日期: 2026-04-14
Transformer模型是否自适应地利用其深度?来自关系推理任务的证据 / Do Transformers Use their Depth Adaptively? Evidence from a Relational Reasoning Task
1️⃣ 一句话总结
这篇论文通过一个基于家族故事的多跳关系推理任务发现,经过微调的Transformer模型会根据任务难度自适应地调整其网络深度的使用,而预训练模型仅表现出有限的适应性。