arXiv ID:
2512.03442
arXiv 提交日期: 2025-12-03
PretrainZero:强化主动预训练 / PretrainZero: Reinforcement Active Pretraining
1️⃣ 一句话总结
这篇论文提出了一个名为PretrainZero的强化学习框架,它能让大语言模型像人类一样主动从海量无标签文本中学习,无需依赖特定领域的奖励信号,从而显著提升了模型在数学、科学等领域的通用推理能力。