arXiv最新AI论文速览速学

🔍

标签: #verifiable rewards ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards 03-08

arXiv ID: 2603.02146

arXiv 提交日期: 2026-03-02

llm reinforcement learning model training long-context reasoning verifiable rewards context grounding sparse reward problem rlvr

LongRLVR：长上下文强化学习需要可验证的上下文奖励 / LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

1️⃣ 一句话总结

这篇论文提出了一种名为LongRLVR的新方法，通过为大型语言模型在长文本任务中增加一个可验证的上下文奖励信号，有效解决了传统方法因奖励信号稀疏而难以学习从外部信息中寻找证据的问题，从而显著提升了模型在长上下文推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08281

arXiv 提交日期: 2026-02-09

llm reinforcement learning theory verifiable rewards emergent reasoning probabilistic framework multi-step reasoning capability emergence

新技能还是更锐利的基础能力？从概率视角看RLVR中推理能力的涌现 / New Skills or Sharper Primitives? A Probabilistic Perspective on the Emergence of Reasoning in RLVR

1️⃣ 一句话总结

这篇论文通过一个概率框架证明，在强化学习结合可验证奖励的训练中，模型之所以能学会复杂的多步推理，并非获得了全新的能力，而是通过大幅提升其已有基础步骤的准确率，从而克服了多步任务中成功率指数级下降的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.08468

arXiv 提交日期: 2026-01-13

llm reinforcement learning model training reasoning verifiable rewards judge-then-generate efficiency generalization

JudgeRLVR：先判断，后生成，实现高效推理 / JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为JudgeRLVR的新方法，它让大型语言模型先学会判断答案是否正确，然后再基于这种判断能力来生成答案，从而在数学推理任务上实现了既更准确又更简洁的解答。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14944

arXiv 提交日期: 2025-12-16

reinforcement learning multi-modal model training vision language models reasoning consistency self-supervised rl curriculum learning verifiable rewards

面向视觉中心推理的谜题课程GRPO / Puzzle Curriculum GRPO for Vision-Centric Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为PC-GRPO的新方法，它通过设计一系列自监督的视觉谜题任务和动态难度课程，无需人工标注或外部验证器，就能有效提升视觉语言模型的推理能力、训练稳定性和最终答案的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.00425

arXiv 提交日期: 2025-11-29

video generation model training aigc physics-aware generation post-training verifiable rewards physical realism video diffusion models

视频生成中的重力问题？利用可验证奖励的后训练牛顿定律 / What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards

1️⃣ 一句话总结

这篇论文提出了一个名为NewtonRewards的后训练框架，通过从生成的视频中提取速度和质量的代理指标，并利用牛顿运动学约束和质量守恒奖励，显著提升了视频生成模型在物理规律上的合理性，使生成的物体运动更符合真实世界的重力、加速度和碰撞效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.02522

arXiv 提交日期: 2025-09-02

reinforcement learning llm model training verifiable rewards policy optimization mathematical reasoning actor-critic supervised learning

基于监督学习框架的隐式行动者评论家耦合强化学习可验证奖励方法 / Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

1️⃣ 一句话总结

这篇论文提出了一种名为PACS的新方法，通过将强化学习中的可验证奖励问题转化为监督学习任务，巧妙地结合了行动者和评论家的角色，从而在数学推理等任务上实现了更稳定高效的训练和更优的性能表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.02146

1️⃣ 一句话总结

arXiv ID: 2602.08281

1️⃣ 一句话总结

arXiv ID: 2601.08468

1️⃣ 一句话总结

arXiv ID: 2512.14944

1️⃣ 一句话总结

arXiv ID: 2512.00425

1️⃣ 一句话总结

arXiv ID: 2509.02522

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.02146 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08281 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.08468 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14944 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.00425 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.02522 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.02146

arXiv ID: 2602.08281

arXiv ID: 2601.08468

arXiv ID: 2512.14944

arXiv ID: 2512.00425

arXiv ID: 2509.02522