arXiv ID:
2510.07242
arXiv 提交日期: 2025-10-08
混合强化:当奖励稀疏时,密集更好 / Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
1️⃣ 一句话总结
这篇论文提出了一种名为HERO的混合强化学习框架,通过结合确定性验证器的稳定性和奖励模型的精细反馈,有效提升大语言模型在数学推理等任务中的性能,尤其在奖励信号稀疏或答案难以验证的情况下表现更优。