arXiv ID:
2603.18444
arXiv 提交日期: 2026-03-19
基于折扣贝塔-伯努利奖励估计的样本高效强化学习与可验证奖励 / Discounted Beta--Bernoulli Reward Estimation for Sample-Efficient Reinforcement Learning with Verifiable Rewards
1️⃣ 一句话总结
这篇论文提出了一种新的奖励估计方法,通过利用历史奖励数据来稳定估计过程,显著提升了大型语言模型在强化学习训练中的样本效率和推理能力,且无需增加额外计算成本。