arXiv ID:
2604.06834
arXiv 提交日期: 2026-04-08
论大语言模型推理数据选择中的步骤长度混淆问题 / On the Step Length Confounding in LLM Reasoning Data Selection
1️⃣ 一句话总结
这篇论文发现,在为大语言模型筛选高质量推理训练数据时,常用的基于‘自然度’的评分方法会偏向步骤更长而非质量更高的样本,并提出了两种新方法来纠正这种偏差,从而选出更优的训练数据。