🤖 系统
12-04 14:23
PretrainZero:强化主动预训练 / PretrainZero: Reinforcement Active Pretraining
1️⃣ 一句话总结
这篇论文提出了一个名为PretrainZero的强化学习框架,它能让大语言模型像人类一样主动从海量无标签文本中学习,无需依赖特定领域的奖励信号,从而显著提升了模型在数学、科学等领域的通用推理能力。
请先 登录 后再提交论文
PretrainZero:强化主动预训练 / PretrainZero: Reinforcement Active Pretraining
这篇论文提出了一个名为PretrainZero的强化学习框架,它能让大语言模型像人类一样主动从海量无标签文本中学习,无需依赖特定领域的奖励信号,从而显著提升了模型在数学、科学等领域的通用推理能力。