arXiv ID:
2606.16517
arXiv 提交日期: 2026-06-15
后训练如何塑造生物推理模型 / How Post-Training Shapes Biological Reasoning Models
1️⃣ 一句话总结
本文通过对比实验发现,针对生物数据的推理模型在后期训练中,不同阶段(持续预训练、监督微调、强化学习)对领域内和领域外性能的影响各不相同,其中强化学习能在监督微调导致的过度专业化后部分恢复泛化能力,因此最佳策略是减少监督微调、增加强化学习投入。