arXiv ID:
2602.22765
arXiv 提交日期: 2026-02-26
通过二阶展开实现更好的强化学习训练数据利用 / Towards Better RL Training Data Utilization via Second-Order Rollout
1️⃣ 一句话总结
这篇论文提出了一种名为“二阶展开”的新方法,通过让大语言模型在训练时不仅生成答案,还生成对答案的多个评价,来联合训练其生成和批判能力,从而更充分地利用训练数据,在相同数据量下比传统强化学习获得更好的性能。