arXiv ID:
2602.10545
arXiv 提交日期: 2026-02-11
高效扩展小模型:基于原理的预热启动与超参数迁移 / $μ$pscaling small models: Principled warm starts and hyperparameter transfer
1️⃣ 一句话总结
这篇论文提出了一种基于理论保证的模型扩展方法,能够将训练好的小模型高效地扩展为更大的模型,并配套开发了一种超参数迁移技术,使得扩展后的大模型无需重新调参就能获得良好的性能,从而大幅节省了计算成本。