arXiv ID:
2605.02073
arXiv 提交日期: 2026-05-03
通过搜索驱动强化学习优化奖励函数以增强大语言模型推理能力 / Enhanced LLM Reasoning by Optimizing Reward Functions with Search-Driven Reinforcement Learning
1️⃣ 一句话总结
本论文提出了一种自动搜索和优化奖励函数的方法,通过让语言模型生成候选奖励、用少量训练步骤筛选并迭代反馈,显著提升了大语言模型在数学推理任务上的表现,实验显示最佳组合比基线方法提升了19%的F1分数。