arXiv ID:
2512.03244
SPARK:用于无参考强化学习的逐步过程感知奖励 / SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为SPARK的三阶段框架,它能在不需要标准答案或详细人工标注的情况下,通过模型自我验证生成高质量的逐步反馈奖励,从而让AI在数学推理等任务上通过强化学习获得比依赖标准答案的传统方法更好的表现。