arXiv ID:
2601.04809
arXiv 提交日期: 2026-01-08
SCALER:用于推理的合成可扩展自适应学习环境 / SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为SCALER的框架,它通过自动生成难度可控且无限量的推理问题来训练大型语言模型,并动态调整训练内容的难度和多样性,从而让模型在强化学习中能够持续、稳定地提升其推理能力,避免了传统方法中训练信号失效或过拟合的问题。