arXiv ID:
2601.08468
JudgeRLVR:先判断,后生成,实现高效推理 / JudgeRLVR: Judge First, Generate Second for Efficient Reasoning
1️⃣ 一句话总结
这篇论文提出了一种名为JudgeRLVR的新方法,它让大型语言模型先学会判断答案是否正确,然后再基于这种判断能力来生成答案,从而在数学推理任务上实现了既更准确又更简洁的解答。