arXiv ID:
2605.26579
arXiv 提交日期: 2026-05-26
焦点奖励:基于评分标准的奖励下强化学习的平衡训练 / Focal Reward: Balanced Reinforcement Learning under Rubric-Based Rewards
1️⃣ 一句话总结
本文提出了一种名为“焦点奖励”的新方法,用于解决大语言模型在多维度评分标准强化训练中出现的奖励不平衡问题,通过自动感知各维度训练饱和程度并动态调整优化权重,使模型在各个评价维度上都能均衡提升,实验证明该方法在18项对比中均优于传统方案。