arXiv最新AI论文速览速学

🔍

标签: #process reward models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Controllable and Verifiable Process Data Synthesis for Process Reward Models 05-10

arXiv ID: 2605.02395

arXiv 提交日期: 2026-05-04

llm model training model evaluation process reward models data synthesis reasoning supervision

面向过程奖励模型的可控且可验证的过程数据合成 / Controllable and Verifiable Process Data Synthesis for Process Reward Models

1️⃣ 一句话总结

本文提出了一种新方法，能够自动生成高质量的训练数据（过程监督数据），帮助AI模型更好地识别推理过程中的每一步是否正确，从而提升模型在逻辑和数学推理任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08346

arXiv 提交日期: 2026-02-09

multi-modal model evaluation benchmark process reward models vision language models visual reasoning reasoning trajectories evaluation benchmark

揭示什么、是否以及如何？为图像推理思维构建过程奖励模型 / What, Whether and How? Unveiling Process Reward Models for Thinking with Images Reasoning

1️⃣ 一句话总结

这篇论文针对大型视觉语言模型在‘图像思维’推理中容易出错的问题，首次创建了一个专门的评估基准，揭示了现有模型难以准确评判推理过程，并指出了未来改进方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.12294

arXiv 提交日期: 2026-01-18

llm agents benchmark process reward models tool-using agents evaluation benchmark reward-guided search step-level rewards

ToolPRMBench：评估并推进工具使用智能体的过程奖励模型 / ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents

1️⃣ 一句话总结

这篇论文提出了一个名为ToolPRMBench的大规模基准测试，专门用来评估和比较那些指导AI智能体分步骤使用工具的过程奖励模型，发现专门为工具使用设计的模型表现更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03244

arXiv 提交日期: 2025-12-02

reinforcement learning llm model training process reward models mathematical reasoning reward hacking synthetic training data self-consistency

SPARK：用于无参考强化学习的逐步过程感知奖励 / SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为SPARK的三阶段框架，它能在不需要标准答案或详细人工标注的情况下，通过模型自我验证生成高质量的逐步反馈奖励，从而让AI在数学推理等任务上通过强化学习获得比依赖标准答案的传统方法更好的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.02395

1️⃣ 一句话总结

arXiv ID: 2602.08346

1️⃣ 一句话总结

arXiv ID: 2601.12294

1️⃣ 一句话总结

arXiv ID: 2512.03244

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.02395 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08346 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.12294 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03244 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.02395

arXiv ID: 2602.08346

arXiv ID: 2601.12294

arXiv ID: 2512.03244