📄 论文总结
让数学推理变得自适应 / Making Mathematical Reasoning Adaptive
1️⃣ 一句话总结
这篇论文提出了一个名为AdaR的新方法,通过生成逻辑等价的数学问题并利用强化学习训练大语言模型,使其学会根据问题本身的逻辑而非表面特征进行推理,从而显著提升了模型在数学问题上的鲁棒性和泛化能力。
请先 登录 后再提交论文
让数学推理变得自适应 / Making Mathematical Reasoning Adaptive
这篇论文提出了一个名为AdaR的新方法,通过生成逻辑等价的数学问题并利用强化学习训练大语言模型,使其学会根据问题本身的逻辑而非表面特征进行推理,从而显著提升了模型在数学问题上的鲁棒性和泛化能力。
重新思考思维令牌:将大语言模型作为改进操作器 / Rethinking Thinking Tokens: LLMs as Improvement Operators
这篇论文提出了一种名为PDR的并行提炼优化推理方法,让大语言模型通过并行生成草稿并迭代优化的方式,在降低计算成本和延迟的同时,反而比传统长链思维推理获得了更高的数学解题准确率。
亚里士多德:国际数学奥林匹克级别的自动定理证明系统 / Aristotle: IMO-level Automated Theorem Proving
这篇论文介绍了一个名为‘亚里士多德’的人工智能系统,它通过结合形式化验证与非正式推理,在国际数学奥林匹克竞赛题目上达到了金牌级别的解题能力,展示了自动定理证明领域的最先进性能。
ScaleDiff:为高级数学推理扩展难题规模 / ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
这篇论文提出了一种名为ScaleDiff的高效方法,通过自动筛选现有数据集中的难题并训练专门的生成器来大规模创造高难度数学问题,从而显著提升大型推理模型在复杂数学任务上的表现,同时大幅降低了计算成本和人工干预需求。
VCRL:基于方差的课程强化学习用于大型语言模型 / VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
这篇论文提出了一种名为VCRL的课程强化学习方法,通过动态调整训练样本的难度来模拟人类从易到难的学习过程,从而更有效地提升大型语言模型在数学推理任务上的表现。
THOR:基于强化学习的工具集成分层优化方法用于数学推理 / THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning
这篇论文提出了一个名为THOR的新方法,通过结合强化学习和外部工具,解决了大型语言模型在数学推理中精度不足的问题,显著提升了模型在数值计算和符号运算等任务上的表现。
基于修复引导的策略优化用于扩散大语言模型 / Inpainting-Guided Policy Optimization for Diffusion Large Language Models
这篇论文提出了一种名为IGPO的新方法,利用扩散大语言模型的文本修复能力来引导强化学习过程,有效解决了训练中的探索效率低和样本浪费问题,在多个数学推理任务上取得了领先的性能。
强化学习在大型推理模型中的应用综述 / A Survey of Reinforcement Learning for Large Reasoning Models
这篇论文综述了强化学习如何提升大型语言模型的逻辑推理能力,特别是在数学和编程等复杂任务上的应用,并探讨了未来扩展至超级人工智能所面临的计算、算法和数据挑战。
面向扩散大语言模型的强化学习框架革新 / Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models
这篇论文提出了一个名为TraceRL的强化学习框架,通过引入轨迹感知训练和扩散价值模型,显著提升了扩散语言模型在数学推理和代码生成等复杂任务上的性能,并发布了开源工具以支持实际应用。
迈向大语言模型后训练的统一视角 / Towards a Unified View of Large Language Model Post-Training
这篇论文提出了一个统一的理论框架,将大语言模型后训练的两种主流方法(基于人类示范的监督学习和基于模型生成数据的强化学习)视为同一优化过程的不同实例,并在此基础上开发了一种能动态选择训练信号的混合后训练算法,在多个数学推理基准测试中取得了优于现有方法的性能。