arXiv ID:
2601.08763
arXiv 提交日期: 2026-01-13
奖励罕见:面向大语言模型创造性问题解决的独特性感知强化学习 / Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs
1️⃣ 一句话总结
这篇论文提出了一种名为‘独特性感知强化学习’的新方法,通过奖励那些使用罕见但正确的高层次解题策略的答案,有效解决了大语言模型在强化学习训练中探索不足、答案模式单一的问题,从而在不牺牲单次答题准确率的前提下,显著提升了模型在复杂推理任务中生成多样化正确答案的能力。