arXiv最新AI论文速览速学

🔍

标签: #tool-integrated reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning 05-30

arXiv ID: 2605.29568

arXiv 提交日期: 2026-05-28

llm reinforcement learning agents tool-integrated reasoning process-supervised rl interleaved deliberation benchmark

DeepTool：通过过程监督强化学习实现工具集成推理中的交错式思考扩展 / DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning

1️⃣ 一句话总结

该论文提出了DeepTool框架，通过让大模型在每一步使用工具时都进行“思考-行动-观察”的交错式深度推理，并引入过程监督强化学习来引导中间步骤的自我纠错，从而显著提升了复杂数学推理任务的准确率和稳健性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.09931

arXiv 提交日期: 2026-05-11

llm agents model evaluation tool-integrated reasoning inference time tool call pruning error resolution efficiency

PruneTIR：推理时工具调用剪枝实现高效且有效的工具集成推理 / PruneTIR: Inference-Time Tool Call Pruning for Effective yet Efficient Tool-Integrated Reasoning

1️⃣ 一句话总结

本文提出PruneTIR方法，在大型语言模型使用外部工具（如代码解释器）进行推理时，通过智能地剪枝、重采样和暂停错误的工具调用，显著提升推理正确率和效率，且无需额外训练。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10712

arXiv 提交日期: 2026-01-15

llm agents model training tool-integrated reasoning credit assignment bipartite matching reinforcement learning multi-turn tasks

MatchTIR：通过二分图匹配实现工具集成推理的细粒度监督 / MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

1️⃣ 一句话总结

这篇论文提出了一个名为MatchTIR的新框架，它通过巧妙的二分图匹配方法，为大型语言模型使用外部工具的过程提供了更精细的监督，从而显著提升了模型在复杂、多步骤任务中的表现，让小模型也能达到甚至超过更大模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23412

arXiv 提交日期: 2025-12-29

agents multi-modal model training tool-integrated reasoning multimodal chain-of-thought autonomous agents benchmark evaluation agent training infrastructure

MindWatcher：迈向更智能的多模态工具集成推理 / MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为MindWatcher的新型智能体，它能够像人一样自主思考、调用各种工具（如图像搜索）来解决复杂的跨领域问题，其核心创新在于让模型在推理过程中随时切换思考和工具调用，并通过高效训练实现了比更大模型更优的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.15489

arXiv 提交日期: 2025-12-17

llm model training data mathematical reasoning dataset distillation long-context training tool-integrated reasoning instruction tuning

Nemotron-Math：基于多模式监督的高效长上下文数学推理知识蒸馏 / Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

1️⃣ 一句话总结

这篇论文通过利用大模型生成多种解题思路和工具使用方式，构建了一个大规模、高质量的数学推理数据集，并开发了高效的训练方法，使AI模型在数学竞赛和实际应用中的解题能力达到了顶尖水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01945

arXiv 提交日期: 2025-12-01

llm agents reinforcement learning instruction optimization policy co-evolution multi-turn reasoning tool-integrated reasoning on-policy reflection

基于指令-策略协同进化的智能体策略优化 / Agentic Policy Optimization via Instruction-Policy Co-Evolution

1️⃣ 一句话总结

这篇论文提出了一个名为INSPO的新框架，它通过让指导AI智能体行动的指令与智能体自身的策略在训练过程中共同进化，从而自动发现更优的指令，显著提升了智能体在复杂任务（如多轮检索和推理）中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.02479

arXiv 提交日期: 2025-09-02

llm reinforcement learning agents tool-integrated reasoning multi-turn reasoning training stability math reasoning policy optimization

SimpleTIR：面向多轮工具集成推理的端到端强化学习 / SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为SimpleTIR的即插即用算法，通过过滤掉无效的推理步骤来稳定大语言模型在多轮工具调用中的强化学习训练，从而显著提升了复杂数学推理任务的性能并促进了多样化推理模式的出现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.29568

1️⃣ 一句话总结

arXiv ID: 2605.09931

1️⃣ 一句话总结

arXiv ID: 2601.10712

1️⃣ 一句话总结

arXiv ID: 2512.23412

1️⃣ 一句话总结

arXiv ID: 2512.15489

1️⃣ 一句话总结

arXiv ID: 2512.01945

1️⃣ 一句话总结

arXiv ID: 2509.02479

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.29568 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.09931 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10712 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23412 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.15489 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01945 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.02479 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.29568

arXiv ID: 2605.09931

arXiv ID: 2601.10712

arXiv ID: 2512.23412

arXiv ID: 2512.15489

arXiv ID: 2512.01945

arXiv ID: 2509.02479