arXiv ID:
2602.16490
arXiv 提交日期: 2026-02-18
从深度增长到循环:大语言模型中迭代计算的统一视角 / From Growing to Looping: A Unified View of Iterative Computation in LLMs
1️⃣ 一句话总结
这篇论文发现,让大语言模型通过‘深度增长’(训练时由浅入深)和‘循环’(推理时重复使用某些层)两种方式提升推理能力,其背后的工作机制本质上是相同的,都是通过一种迭代计算过程来实现,并且这两种方法可以相互结合,进一步放大效果。