arXiv ID:
2605.18721
arXiv 提交日期: 2026-05-18
通用偏好强化学习 / General Preference Reinforcement Learning
1️⃣ 一句话总结
本文提出了一种名为通用偏好强化学习(GPRL)的新方法,通过将质量评估拆解为多个维度并分别归一化,解决了传统奖励模型因单一评分导致模型在复杂任务中“钻空子”的问题,从而使大语言模型在数学、代码和开放式任务中都能持续提升表现。