arXiv ID:
2601.05242
arXiv 提交日期: 2026-01-08
GDPO:面向多奖励强化学习的组奖励解耦归一化策略优化 / GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
1️⃣ 一句话总结
本文提出了一种名为GDPO的新策略优化方法,通过解耦多个奖励的归一化过程,有效解决了现有方法在多奖励强化学习中因信号模糊导致的训练不稳定和性能不佳的问题,并在工具调用、数学推理和代码推理等任务上取得了更好的效果。