arXiv ID:
2606.03980
arXiv 提交日期: 2026-06-02
技能奖励模型:通过智能体技能统一异构评价标准 / Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill
1️⃣ 一句话总结
本文提出Skill-RM,一种将奖励建模转化为可复用“奖励评估技能”的统一框架,通过智能体动态选择和整合多种评价证据(如规则、参考答案、检查表等),从而更灵活、透明地评估大语言模型输出,在多项测试中表现优于传统方法。