arXiv ID:
2602.14404
arXiv 提交日期: 2026-02-16
圆球还是法棍?关于任务拓扑结构、长度泛化以及推理轨迹益处的研究 / Boule or Baguette? A Study on Task Topology, Length Generalization, and the Benefit of Reasoning Traces
1️⃣ 一句话总结
这项研究通过大规模逻辑推理数据集发现,生成中间推理步骤的AI模型在处理步骤少但类型多的‘宽浅’任务时表现优异,但在处理步骤多但类型单一的‘窄深’任务时,其泛化能力会显著下降,揭示了此类模型固有的优势与局限。