arXiv ID:
2601.09088
arXiv 提交日期: 2026-01-14
面向卓越长链推理的分布对齐序列蒸馏 / Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为DASD-4B-Thinking的新型轻量级开源推理模型,它通过改进传统的序列蒸馏方法,解决了教师模型输出分布与学生模型学习能力不匹配等核心问题,从而仅用少量训练数据就在数学、科学推理和代码生成等多项任务上达到了领先的开源模型性能。