arXiv ID:
2602.08281
arXiv 提交日期: 2026-02-09
新技能还是更锐利的基础能力?从概率视角看RLVR中推理能力的涌现 / New Skills or Sharper Primitives? A Probabilistic Perspective on the Emergence of Reasoning in RLVR
1️⃣ 一句话总结
这篇论文通过一个概率框架证明,在强化学习结合可验证奖励的训练中,模型之所以能学会复杂的多步推理,并非获得了全新的能力,而是通过大幅提升其已有基础步骤的准确率,从而克服了多步任务中成功率指数级下降的难题。