arXiv ID:
2602.04118
用13个参数学习推理 / Learning to Reason in 13 Parameters
1️⃣ 一句话总结
这篇论文提出了一种名为TinyLoRA的新方法,它通过强化学习,仅用少至13个可训练参数就能让大型语言模型学会复杂的数学推理,性能接近使用成千上万参数的传统方法。
用13个参数学习推理 / Learning to Reason in 13 Parameters
这篇论文提出了一种名为TinyLoRA的新方法,它通过强化学习,仅用少至13个可训练参数就能让大型语言模型学会复杂的数学推理,性能接近使用成千上万参数的传统方法。
超越KL散度:利用灵活的布雷格曼散度进行大语言模型推理的策略优化 / Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning
这篇论文提出了一个名为GBMPO的新框架,通过引入更灵活的布雷格曼散度(如概率空间的L2距离或可学习的神经网络映射)来代替传统的KL散度进行策略正则化,从而显著提升了大语言模型在数学推理和代码生成任务上的性能。
从“增厚”到“减薄”:基于人类学习动态的奖励塑造方法用于大语言模型推理 / Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning
这篇论文提出了一种名为T2T的动态奖励框架,它模仿人类学习过程,在模型推理错误时鼓励探索更长的解题路径以拓宽思路,在推理正确时则奖励简洁表达以提升效率,从而显著提升大语言模型在数学推理任务上的表现。
TRE:在信任区域内鼓励探索 / TRE: Encouraging Exploration in the Trust Region
这篇论文提出了一种名为‘信任区域熵’的新方法,通过将探索限制在模型可信的范围内,有效解决了大语言模型在强化学习中因盲目探索而性能下降的问题,并在数学推理等多个任务上取得了更好的效果。
知识模型提示提升大语言模型在规划任务上的性能 / Knowledge Model Prompting Increases LLM Performance on Planning Tasks
这篇论文提出了一种基于任务-方法-知识框架的提示方法,它能有效引导大语言模型进行结构化推理和任务分解,从而在复杂的符号规划任务上大幅提升其性能表现。
并非所有错误样本都同等重要:大语言模型从合理推理中学习效果更佳 / Not All Negative Samples Are Equal: LLMs Learn Better from Plausible Reasoning
这篇论文提出了一种名为‘合理负样本’的新方法,通过专门生成看起来格式正确、推理过程合理但最终答案是错误的训练样本,来更有效地提升大语言模型在数学推理等任务上的表现,效果优于传统方法。
推理缓存:通过短视界强化学习实现长视界的持续改进 / Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL
这篇论文提出了一种名为‘推理缓存’的新算法,它能让大型语言模型在解决复杂推理问题时,通过迭代式的自我总结和改进,实现远超训练时所见范围的持续性能提升。
ReMiT:强化学习引导的中期训练用于迭代式大语言模型演进 / ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution
这篇论文提出了一种名为ReMiT的新方法,它利用强化学习调整后的模型来指导大语言模型在预训练后期的关键阶段,通过动态调整训练数据的权重来优先学习推理相关的知识,从而形成一个自我强化的循环,持续提升模型在数学、代码和通用推理等多方面的能力。
通过分而治之推理训练大语言模型提升测试时扩展性 / Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability
这篇论文提出了一种新的强化学习训练框架,教会大语言模型像‘庖丁解牛’一样,先将复杂问题拆分成多个子问题逐一解决,再整合答案,从而在应对高难度任务时比传统‘一步步想’的方法表现更好、扩展性更强。
超越模式激发:通过潜在扩散推理器实现多样性保持的强化学习 / Beyond Mode Elicitation: Diversity-Preserving Reinforcement Learning via Latent Diffusion Reasoner
这篇论文提出了一种名为LaDi-RL的新方法,它通过在一个连续的潜在空间中进行扩散引导的探索来优化大语言模型的推理过程,有效避免了传统方法中因强化学习导致思维链多样性下降的问题,从而在代码生成和数学推理任务上取得了更好的性能。
请先 登录 后再提交论文