arXiv ID:
2602.20532
arXiv 提交日期: 2026-02-24
Actor-Curator:一种通过策略改进老虎机实现协同自适应课程学习的强化学习后训练框架 / Actor-Curator: Co-adaptive Curriculum Learning via Policy-Improvement Bandits for RL Post-Training
1️⃣ 一句话总结
这篇论文提出了一个名为Actor-Curator的自动化课程学习框架,它通过一个智能‘策展人’动态选择训练题目来优化大语言模型的强化学习后训练过程,从而显著提升了模型在复杂推理任务上的性能和训练效率。