📄 论文总结
未走之路:RLVR可证明地偏离主方向学习 / The Path Not Taken: RLVR Provably Learns Off the Principals
1️⃣ 一句话总结
这篇论文揭示了强化学习与可验证奖励(RLVR)方法通过避开神经网络权重空间的主方向,在保持模型频谱稳定的微小参数更新中实现性能提升,其优化机制与传统的监督微调(SFT)有本质不同。
请先 登录 后再提交论文
未走之路:RLVR可证明地偏离主方向学习 / The Path Not Taken: RLVR Provably Learns Off the Principals
这篇论文揭示了强化学习与可验证奖励(RLVR)方法通过避开神经网络权重空间的主方向,在保持模型频谱稳定的微小参数更新中实现性能提升,其优化机制与传统的监督微调(SFT)有本质不同。
竞争性编程代码生成中基于可验证奖励的强化学习数据管理最佳实践 / DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation
这篇论文提出了一套针对竞争性编程代码生成任务的数据管理和强化学习训练方法,通过两阶段强化学习和课程设计,使模型在代码竞赛中达到了与顶尖系统相当的性能。
LaSeR:基于末位令牌自我奖励的强化学习 / LaSeR: Reinforcement Learning with Last-Token Self-Rewarding
这篇论文提出了一种名为LaSeR的新方法,通过仅利用模型生成答案后最后一个令牌的预测概率来高效实现自我奖励,从而在无需复杂验证流程的情况下,同时提升大型语言模型的推理能力和自我评估性能。
让数学推理变得自适应 / Making Mathematical Reasoning Adaptive
这篇论文提出了一个名为AdaR的新方法,通过生成逻辑等价的数学问题并利用强化学习训练大语言模型,使其学会根据问题本身的逻辑而非表面特征进行推理,从而显著提升了模型在数学问题上的鲁棒性和泛化能力。
LSPO:面向大语言模型推理的策略优化长度感知动态采样方法 / LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning
本文提出了一种名为LSPO的新方法,通过根据模型回答的平均长度动态选择训练数据,有效提升了大语言模型在推理任务中的学习效率。
散度选择:一个被忽视的缓解带可验证奖励强化学习中多样性崩溃的关键 / The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward
这篇论文提出了一种新方法,通过选择特定的散度度量来防止大型语言模型在强化学习微调过程中丢失多样性,从而同时提升单次和多次尝试的生成性能。