arXiv ID:
2602.14872
arXiv 提交日期: 2026-02-16
论RLVR在能力边缘的学习动态 / On the Learning Dynamics of RLVR at the Edge of Competence
1️⃣ 一句话总结
这篇论文通过理论分析和实验验证,揭示了基于可验证奖励的强化学习如何帮助模型解决复杂推理任务,关键在于训练数据中任务难度的平滑性:平滑的难度谱能产生‘接力效应’实现稳定提升,而突变的难度则会导致学习停滞和突然的‘顿悟’现象。