🤖 系统
11-30 17:49
📄 论文总结
更短但不更差:通过简单样本作为数学RLVR中的长度正则化器进行节俭推理 / Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
1️⃣ 一句话总结
这项研究发现,在训练大型语言模型进行数学推理时,保留并适度增加中等难度问题的权重可以有效防止模型产生冗长输出,从而在不牺牲准确性的前提下,使模型学会用更短的推理步骤解决复杂问题。