🤖 系统
11-30 17:33
📄 论文总结
THOR:基于强化学习的工具集成分层优化方法用于数学推理 / THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为THOR的新方法,通过结合强化学习和外部工具,解决了大型语言模型在数学推理中精度不足的问题,显著提升了模型在数值计算和符号运算等任务上的表现。