← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm agents
详细标签: tool integration hierarchical reinforcement learning reasoning code generation self-correction 或 搜索:

📄 论文总结

通过强化学习的工具集成分层优化

Tool-Integrated Hierarchical Optimization via Reinforcement Learning


1️⃣ 一句话总结

THOR方法通过工具集成推理数据生成、分层强化学习和推理时自我校正机制,显著提升大语言模型在数学推理和代码生成任务中的性能。


2️⃣ 论文创新点

1. TIRGen数据生成管道

2. 分层强化学习优化

3. 自我校正推理机制


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF