arXiv ID:
2512.16649
arXiv 提交日期: 2025-12-18
JustRL:用简单的强化学习配方扩展15亿参数大语言模型 / JustRL: Scaling a 1.5B LLM with a Simple RL Recipe
1️⃣ 一句话总结
这篇论文提出了一个名为JustRL的极简强化学习方法,它仅使用单阶段训练和固定参数,就在两个15亿参数模型上取得了顶尖的数学推理性能,同时计算量减半,挑战了当前领域普遍认为需要复杂训练流程才能取得好效果的观念。