arXiv ID:
2512.07461
原生并行推理器:通过自蒸馏强化学习实现并行推理 / Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一个名为NPR的无教师框架,它让大语言模型通过自我进化的方式,从模仿串行思考转变为真正具备并行推理能力,从而在多个任务上显著提升了性能和推理速度。