arXiv ID:
2512.15687
arXiv 提交日期: 2025-12-17
大语言模型能引导自我探索吗?面向大语言模型推理的梯度引导强化学习 / Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning
1️⃣ 一句话总结
这篇论文提出了一种名为G2RL的新强化学习方法,它让大语言模型利用自身参数更新的方向(梯度)来引导探索过程,从而更有效地学习推理能力,在多个数学和常识推理测试中超越了传统方法。