arXiv ID:
2602.02477
arXiv 提交日期: 2026-02-02
通过分而治之推理训练大语言模型提升测试时扩展性 / Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability
1️⃣ 一句话总结
这篇论文提出了一种新的强化学习训练框架,教会大语言模型像‘庖丁解牛’一样,先将复杂问题拆分成多个子问题逐一解决,再整合答案,从而在应对高难度任务时比传统‘一步步想’的方法表现更好、扩展性更强。