arXiv ID:
2602.10815
arXiv 提交日期: 2026-02-11
为什么强化学习比监督微调泛化得更好?从数据中心的视角看视觉语言模型的后训练 / Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training
1️⃣ 一句话总结
这篇论文发现,在视觉语言模型的后训练中,强化学习比监督微调泛化能力更好的原因在于它隐式地筛选了中等难度的训练数据,并据此提出了一种通过显式筛选数据难度来提升模型泛化能力且更高效稳定的新方法。