arXiv ID:
2605.18191
arXiv 提交日期: 2026-05-18
基于成对偏好奖励与群体多样性增强的优质开放式生成方法 / Pairwise Preference Reward and Group-Based Diversity Enhancement for Superior Open-Ended Generation
1️⃣ 一句话总结
本文提出了一种无需标量奖励的强化学习方法PPR-GDE,通过成对比较来捕捉主观偏好,并在奖励信号中引入群体多样性指标,从而在开放式生成任务(如角色扮演)中既提升了对齐质量,又避免了模型输出单一、刻板的问题。