arXiv ID:
2603.08391
Transformer中的自适应循环与记忆机制:是深入思考还是博闻强记? / Adaptive Loops and Memory in Transformers: Think Harder or Know More?
1️⃣ 一句话总结
这篇论文提出了一种结合了自适应循环机制和记忆库的新型Transformer模型,它通过让模型的不同部分学会“反复思考”或“存取知识”,在数学推理和常识任务上均取得了优于传统深层模型的性能。