← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm systems
详细标签: tool-integrated training software issue localization reinforcement learning supervised fine-tuning multi-hop reasoning 或 搜索:

📄 论文总结


1️⃣ 一句话总结

这篇论文提出了ToolTrain框架,通过结合拒绝采样的监督微调(SFT)工具集成的强化学习(RL)两阶段训练方法,显著提升了大语言模型(LLM)在软件问题定位任务中的工具调用能力和多跳推理能力,并在实验中超越了包括Claude-3.7在内的商业模型性能。


2️⃣ 论文创新点

1. 两阶段工具集成训练框架(ToolTrain)

2. 轻量级问题定位代理(RepoSearcher)

3. 高质量数据构建与评估策略


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表


(总结已合并重复术语,如ToolTrain、RepoSearcher等仅保留核心定义,省略非关键缩写如SGLang。)

📄 打开原文 PDF