arXiv ID:
2607.01830
arXiv 提交日期: 2026-07-02
多角色评分标准生成:用于大模型评判与奖励建模的统一框架 / Many Voices, One Reward: Multi-Role Rubric Generation for LLM Judging and Reward Modeling
1️⃣ 一句话总结
本文提出一种无需训练和外部参考的框架(MRRG),通过让多个互补的角色各自生成评分标准,再整合成一份全面的评估表,从而克服单一评估角色可能忽略某些用户偏好维度的问题,既能用于验证模型答案的优劣,也能为强化学习提供更可靠的奖励信号。