arXiv ID:
2606.22938
RLVR相对于SFT在推理模型中的可证明优势:学习高效回溯 / Provable Benefits of RLVR over SFT for Reasoning Models: Learning to Backtrack Efficiently
1️⃣ 一句话总结
这项研究通过将链式推理建模为图上的路径搜索问题,从理论上证明:相比传统的监督微调,使用可验证奖励的强化学习能够教会大语言模型在推理过程中高效地从死胡同回溯,从而在推理时计算效率上带来指数级的提升,并且这种回溯能力还可以通过蒸馏传递给其他模型。