arXiv ID:
2603.09117
arXiv 提交日期: 2026-03-10
解耦推理与置信度:在可验证奖励的强化学习中重校准 / Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards
1️⃣ 一句话总结
这篇论文发现,在通过可验证奖励训练大语言模型时,追求答案准确性和追求模型对自己的答案有正确的信心(不过度自信)这两个目标是相互冲突的,因此提出了一个名为DCPO的新方法,将这两个目标分开训练,从而在保持答案准确的同时,有效解决了模型对错误答案过度自信的问题。