arXiv ID:
2509.03059
arXiv 提交日期: 2025-09-03
Loong:通过验证器大规模合成长链思维 / Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers
1️⃣ 一句话总结
这篇论文提出了一个名为Loong的开源框架,通过自动验证的合成数据生成和强化学习,帮助大语言模型在数学、化学等多种复杂推理领域提升其长链思维推理能力。