arXiv ID:
2510.08191
免训练分组相对策略优化 / Training-Free Group Relative Policy Optimization
1️⃣ 一句话总结
这篇论文提出了一种无需更新模型参数的轻量级方法,通过将高质量经验知识作为先验信息来指导大语言模型的行为,从而在少量数据下显著提升其在数学推理和网络搜索等任务中的表现。
免训练分组相对策略优化 / Training-Free Group Relative Policy Optimization
这篇论文提出了一种无需更新模型参数的轻量级方法,通过将高质量经验知识作为先验信息来指导大语言模型的行为,从而在少量数据下显著提升其在数学推理和网络搜索等任务中的表现。
LightReasoner:小语言模型能否教会大语言模型推理? / LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
这项研究提出了一种名为LightReasoner的新方法,通过对比大小语言模型在推理过程中的行为差异,让小模型帮助大模型识别并强化其关键推理优势,从而在显著减少计算资源和数据需求的同时,大幅提升大模型的数学推理能力。
混合强化:当奖励稀疏时,密集更好 / Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
这篇论文提出了一种名为HERO的混合强化学习框架,通过结合确定性验证器的稳定性和奖励模型的精细反馈,有效提升大语言模型在数学推理等任务中的性能,尤其在奖励信号稀疏或答案难以验证的情况下表现更优。
让数学推理变得自适应 / Making Mathematical Reasoning Adaptive
这篇论文提出了一个名为AdaR的新方法,通过生成逻辑等价的数学问题并利用强化学习训练大语言模型,使其学会根据问题本身的逻辑而非表面特征进行推理,从而显著提升了模型在数学问题上的鲁棒性和泛化能力。
亚里士多德:国际数学奥林匹克级别的自动定理证明系统 / Aristotle: IMO-level Automated Theorem Proving
这篇论文介绍了一个名为‘亚里士多德’的人工智能系统,它通过结合形式化验证与非正式推理,在国际数学奥林匹克竞赛题目上达到了金牌级别的解题能力,展示了自动定理证明领域的最先进性能。
重新思考思维令牌:将大语言模型作为改进操作器 / Rethinking Thinking Tokens: LLMs as Improvement Operators
这篇论文提出了一种名为PDR的并行提炼优化推理方法,让大语言模型通过并行生成草稿并迭代优化的方式,在降低计算成本和延迟的同时,反而比传统长链思维推理获得了更高的数学解题准确率。
ScaleDiff:为高级数学推理扩展难题规模 / ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
这篇论文提出了一种名为ScaleDiff的高效方法,通过自动筛选现有数据集中的难题并训练专门的生成器来大规模创造高难度数学问题,从而显著提升大型推理模型在复杂数学任务上的表现,同时大幅降低了计算成本和人工干预需求。
VCRL:基于方差的课程强化学习用于大型语言模型 / VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
这篇论文提出了一种名为VCRL的课程强化学习方法,通过动态调整训练样本的难度来模拟人类从易到难的学习过程,从而更有效地提升大型语言模型在数学推理任务上的表现。
THOR:基于强化学习的工具集成分层优化方法用于数学推理 / THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning
这篇论文提出了一个名为THOR的新方法,通过结合强化学习和外部工具,解决了大型语言模型在数学推理中精度不足的问题,显著提升了模型在数值计算和符号运算等任务上的表现。
基于修复引导的策略优化用于扩散大语言模型 / Inpainting-Guided Policy Optimization for Diffusion Large Language Models
这篇论文提出了一种名为IGPO的新方法,利用扩散大语言模型的文本修复能力来引导强化学习过程,有效解决了训练中的探索效率低和样本浪费问题,在多个数学推理任务上取得了领先的性能。
请先 登录 后再提交论文