🤖 系统
11-30 17:34
📄 论文总结
VCRL:基于方差的课程强化学习用于大型语言模型 / VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为VCRL的课程强化学习方法,通过动态调整训练样本的难度来模拟人类从易到难的学习过程,从而更有效地提升大型语言模型在数学推理任务上的表现。