arXiv ID:
2605.29568
DeepTool:通过过程监督强化学习实现工具集成推理中的交错式思考扩展 / DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning
1️⃣ 一句话总结
该论文提出了DeepTool框架,通过让大模型在每一步使用工具时都进行“思考-行动-观察”的交错式深度推理,并引入过程监督强化学习来引导中间步骤的自我纠错,从而显著提升了复杂数学推理任务的准确率和稳健性。