arXiv ID:
2603.09571
arXiv 提交日期: 2026-03-10
一种基于最优控制的Transformer训练方法 / An Optimal Control Approach To Transformer Training
1️⃣ 一句话总结
这篇论文提出了一种基于最优控制理论的全新Transformer训练框架,通过将模型建模为粒子系统并提升到概率空间,证明了全局最优策略的存在性,并设计了一种量化训练方法,为传统梯度训练提供了一个不依赖平滑性或凸性的全局最优且鲁棒的替代方案。