arXiv ID:
2603.09221
超越测试时训练:通过硬件高效的最优控制学习推理 / Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control
1️⃣ 一句话总结
这篇论文提出了一种名为‘测试时控制层’的新方法,它将推理过程建模为最优控制问题,并设计了一个高效的硬件求解器,将其作为插件集成到大型语言模型中,从而显著提升了模型在数学推理等复杂任务上的性能。