arXiv ID:
2509.11963
arXiv 提交日期: 2025-09-15
ToolRM:面向工具调用大语言模型的结果奖励模型 / ToolRM: Outcome Reward Models for Tool-Calling Large Language Models
1️⃣ 一句话总结
这篇论文针对大语言模型使用外部工具时现有奖励模型评估效果不佳的问题,提出了一个基于结果的新型奖励模型训练框架,并在多个测试中显著提升了模型使用工具完成任务的性能。