arXiv ID:
2602.08499
arXiv 提交日期: 2026-02-09
基于情境化滚动选择的强化学习与可验证奖励 / Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards
1️⃣ 一句话总结
这篇论文提出了一种智能调度方法,通过将强化学习训练过程中的历史反馈数据视为可选择的“选项”,并动态挑选出最有价值的反馈来优化模型,从而显著提升了大型语言模型在数学推理等任务上的训练效率和最终性能。