arXiv ID:
2602.03516
arXiv 提交日期: 2026-02-03
并非所有错误样本都同等重要:大语言模型从合理推理中学习效果更佳 / Not All Negative Samples Are Equal: LLMs Learn Better from Plausible Reasoning
1️⃣ 一句话总结
这篇论文提出了一种名为‘合理负样本’的新方法,通过专门生成看起来格式正确、推理过程合理但最终答案是错误的训练样本,来更有效地提升大语言模型在数学推理等任务上的表现,效果优于传统方法。