arXiv ID:
2604.04281
arXiv 提交日期: 2026-04-05
仅靠保持性不足以保证宽度扩展:针对不同训练阶段选择稠密语言模型的热启动方法 / Preservation Is Not Enough for Width Growth: Regime-Sensitive Selection of Dense LM Warm Starts
1️⃣ 一句话总结
这篇论文研究发现,在扩展小型语言模型规模时,仅仅保持模型原有性能并不够,最佳的热启动方法选择取决于后续训练是确定性的还是随机的,以及训练步数的长短。