arXiv ID:
2605.15012
arXiv 提交日期: 2026-05-14
通过随机选取的少量示例引导提升基于可验证奖励的强化学习 / Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance
1️⃣ 一句话总结
本文提出一种名为FEST的算法,仅需随机选取128个示例(远少于传统监督微调所需的数据量),就能显著提升强化学习在数学和编程等复杂任务中的样本效率,避免模型过拟合,并在多个基准测试中达到甚至超越使用完整数据集的效果。