arXiv ID:
2601.03111
arXiv 提交日期: 2026-01-06
一统天下的样本:强化学习规模化中的极致数据效率 / One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling
1️⃣ 一句话总结
这篇论文挑战了传统观念,发现只需一个精心设计的数学推理样本进行强化学习,就能显著提升大语言模型在物理、化学、生物等多个领域的综合推理能力,证明了样本质量比数量更重要。