arXiv ID:
2601.00423
arXiv 提交日期: 2026-01-01
E-GRPO:高熵步骤驱动流模型的有效强化学习 / E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models
1️⃣ 一句话总结
这篇论文提出了一种名为E-GRPO的新强化学习方法,它通过智能地合并低熵步骤来创造高熵采样步骤,从而解决了现有方法在训练流模型时因奖励信号稀疏模糊而导致的探索效率低下问题,有效提升了模型与人类偏好对齐的性能。