arXiv ID:
2604.01702
论推理模式在长思维链监督微调泛化差异中的作用 / On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning
1️⃣ 一句话总结
这篇论文研究发现,在训练大语言模型进行复杂推理时,使用逻辑收敛、演绎式的思维链数据比使用发散、分支探索式的数据更能提升模型的泛化能力,即使后者在训练时看起来更容易学习。