arXiv ID:
2601.14249
哪些推理轨迹能让学生模型更好地学习推理?一个衡量信息对齐的简单指标 / Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment
1️⃣ 一句话总结
这篇论文提出了一个名为‘排序-惊奇度比率’的简单新指标,它能有效评估用于训练学生大语言模型的推理轨迹的质量,帮助挑选出既贴合学生当前水平又富含新信息的最佳教学材料,从而显著提升模型在复杂推理任务上的表现。