arXiv最新AI论文速览速学

🔍

标签: #rlvr ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning 03-16

arXiv ID: 2603.10588

arXiv 提交日期: 2026-03-11

llm model training theory alignment reinforcement learning moral reasoning rlvr reward modeling

大语言模型对齐真的需要多样性吗？一项关于将RLVR方法应用于道德推理的实证研究 / Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

1️⃣ 一句话总结

这项研究发现，在训练大语言模型进行道德推理时，追求高回报的标准强化学习方法与刻意保持多样性的方法效果相当甚至更好，表明对齐任务并不必然需要专门的多样性算法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09117

arXiv 提交日期: 2026-03-10

reinforcement learning llm model evaluation calibration over-confidence rlvr gradient conflict decoupled optimization

解耦推理与置信度：在可验证奖励的强化学习中重校准 / Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

1️⃣ 一句话总结

这篇论文发现，在通过可验证奖励训练大语言模型时，追求答案准确性和追求模型对自己的答案有正确的信心（不过度自信）这两个目标是相互冲突的，因此提出了一个名为DCPO的新方法，将这两个目标分开训练，从而在保持答案准确的同时，有效解决了模型对错误答案过度自信的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02146

arXiv 提交日期: 2026-03-02

llm reinforcement learning model training long-context reasoning verifiable rewards context grounding sparse reward problem rlvr

LongRLVR：长上下文强化学习需要可验证的上下文奖励 / LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

1️⃣ 一句话总结

这篇论文提出了一种名为LongRLVR的新方法，通过为大型语言模型在长文本任务中增加一个可验证的上下文奖励信号，有效解决了传统方法因奖励信号稀疏而难以学习从外部信息中寻找证据的问题，从而显著提升了模型在长上下文推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14872

arXiv 提交日期: 2026-02-16

reinforcement learning theory model training rlvr learning dynamics transformers compositional reasoning fourier analysis

论RLVR在能力边缘的学习动态 / On the Learning Dynamics of RLVR at the Edge of Competence

1️⃣ 一句话总结

这篇论文通过理论分析和实验验证，揭示了基于可验证奖励的强化学习如何帮助模型解决复杂推理任务，关键在于训练数据中任务难度的平滑性：平滑的难度谱能产生‘接力效应’实现稳定提升，而突变的难度则会导致学习停滞和突然的‘顿悟’现象。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04265

arXiv 提交日期: 2026-02-04

llm reinforcement learning model training reward shaping reasoning exploration mathematical reasoning rlvr

从“增厚”到“减薄”：基于人类学习动态的奖励塑造方法用于大语言模型推理 / Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为T2T的动态奖励框架，它模仿人类学习过程，在模型推理错误时鼓励探索更长的解题路径以拓宽思路，在推理正确时则奖励简洁表达以提升效率，从而显著提升大语言模型在数学推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21244

arXiv 提交日期: 2026-01-29

llm reinforcement learning model training instruction purification reasoning rlvr exploration efficiency prompt optimization

少噪声，多表达：通过指令净化实现推理的强化学习 / Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

1️⃣ 一句话总结

这项研究提出了一种名为LENS的新框架，它通过识别并清除指令中的干扰性词语来提升大语言模型在强化学习中的推理效率，从而在复杂任务中实现更快的训练速度和更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.08521

arXiv 提交日期: 2026-01-13

llm reinforcement learning model training rlvr advantage estimation group-relative advantage post-training mathematical reasoning

你的组相对优势是有偏的 / Your Group-Relative Advantage Is Biased

1️⃣ 一句话总结

这篇论文发现，在基于验证器奖励的强化学习训练大语言模型时，广泛使用的组相对优势估计方法存在系统性偏差，导致模型对不同难度问题的探索和利用失衡，并提出了一种自适应的权重调整方案来纠正这一偏差，从而提升模型在数学推理等任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05870

arXiv 提交日期: 2026-01-09

llm reinforcement learning model training structured exploration information bottleneck latent policy optimization reasoning diversity rlvr

通过信息瓶颈潜在策略优化实现结构化探索：解决LLM推理中的探索崩溃问题 / IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck

1️⃣ 一句话总结

本文提出了一种名为I²B-LPO的新方法，通过熵驱动的潜在分支和信息瓶颈正则化，解决了大型语言模型在强化学习与可验证奖励（RLVR）推理任务中面临的探索崩溃问题，在保持推理准确性的同时显著提升了输出路径的语义多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21625

arXiv 提交日期: 2025-12-25

llm reinforcement learning model training reasoning models policy optimization advantage shaping rlvr sample polarity

重新思考可验证奖励强化学习中的样本极性 / Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards

1️⃣ 一句话总结

这篇论文通过研究发现，在训练大型推理模型时，使用正确（正极性）和错误（负极性）的推理路径分别能强化已有模式和探索新路径，并据此提出了一种名为A3PO的新方法，能更智能地分配奖励信号，从而在多个推理任务上取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16912

arXiv 提交日期: 2025-12-18

llm reinforcement learning model training exploration-exploitation policy entropy spurious rewards rlvr reward misalignment

探索与利用：通过裁剪、熵和虚假奖励重新思考可验证奖励强化学习 / Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

1️⃣ 一句话总结

这篇论文通过分析虚假奖励和熵最小化这两种看似矛盾的方法，揭示了它们如何协同作用，在可验证奖励强化学习中提升大语言模型的推理能力，并解释了其背后的机制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10588

1️⃣ 一句话总结

arXiv ID: 2603.09117

1️⃣ 一句话总结

arXiv ID: 2603.02146

1️⃣ 一句话总结

arXiv ID: 2602.14872

1️⃣ 一句话总结

arXiv ID: 2602.04265

1️⃣ 一句话总结

arXiv ID: 2601.21244

1️⃣ 一句话总结

arXiv ID: 2601.08521

1️⃣ 一句话总结

arXiv ID: 2601.05870

1️⃣ 一句话总结

arXiv ID: 2512.21625

1️⃣ 一句话总结

arXiv ID: 2512.16912

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10588 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09117 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02146 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14872 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04265 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21244 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.08521 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05870 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21625 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16912 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10588

arXiv ID: 2603.09117

arXiv ID: 2603.02146

arXiv ID: 2602.14872

arXiv ID: 2602.04265

arXiv ID: 2601.21244

arXiv ID: 2601.08521

arXiv ID: 2601.05870

arXiv ID: 2512.21625

arXiv ID: 2512.16912