arXiv ID:
2603.24202
arXiv 提交日期: 2026-03-25
利用合成数据与课程学习,深入探索强化学习在代码生成中的规模化应用 / A Deep Dive into Scaling RL for Code Generation with Synthetic Data and Curricula
1️⃣ 一句话总结
这篇论文提出了一种通过多轮交互生成结构化合成数据并设计难度课程的方法,有效提升了强化学习训练大型语言模型在代码生成等任务上的性能和泛化能力。