arXiv ID:
2603.01223
arXiv 提交日期: 2026-03-01
通过参考引导微调在强化学习中学习难题 / Learn Hard Problems During RL with Reference Guided Fine-tuning
1️⃣ 一句话总结
这篇论文提出了一种名为ReGFT的新方法,它巧妙地利用人类编写的参考答案来引导大语言模型自己生成解题思路,从而解决了数学推理强化学习中因奖励稀疏而难以训练的问题,最终显著提升了模型在复杂数学问题上的表现。