arXiv ID:
2606.04807
BiasGRPO:通过群体相对策略优化在高方差奖励景观中稳定偏差缓解 / BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization
1️⃣ 一句话总结
本文提出BiasGRPO方法,利用群体相对策略优化(GRPO)通过对一组采样输出的奖励进行归一化,稳定地减少大语言模型中的社会偏见,相比DPO和PPO方法在多个基准上表现更优,并附带了高效且可复用的偏差奖励模型。