arXiv ID:
2601.12294
arXiv 提交日期: 2026-01-18
ToolPRMBench:评估并推进工具使用智能体的过程奖励模型 / ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents
1️⃣ 一句话总结
这篇论文提出了一个名为ToolPRMBench的大规模基准测试,专门用来评估和比较那些指导AI智能体分步骤使用工具的过程奖励模型,发现专门为工具使用设计的模型表现更好。