arXiv ID:
2604.13515
arXiv 提交日期: 2026-04-15
SFT-GRPO数据重叠作为自动形式化的后训练超参数 / SFT-GRPO Data Overlap as a Post-Training Hyperparameter for Autoformalization
1️⃣ 一句话总结
这篇论文通过实验发现,在AI模型进行自动形式化任务的后训练中,让监督微调(SFT)和强化学习(GRPO)两个阶段使用完全不同的数据,能显著提升模型性能,而如果两个阶段使用完全相同的数据,强化学习阶段就变得几乎无效。