arXiv最新AI论文速览速学

🔍

标签: #tool integration ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: FluxEDA: A Unified Execution Infrastructure for Stateful Agentic EDA 03-30

arXiv ID: 2603.25243

arXiv 提交日期: 2026-03-26

agents systems llm eda automation stateful infrastructure agentic systems tool integration execution management

FluxEDA：面向状态化智能体EDA的统一执行基础设施 / FluxEDA: A Unified Execution Infrastructure for Stateful Agentic EDA

1️⃣ 一句话总结

这篇论文提出了一个名为FluxEDA的统一基础设施，它通过管理工具运行状态，使得AI智能体能够与复杂的电子设计自动化工具进行持续、多步骤的交互和优化，而不是每次都要重新启动工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15952

arXiv 提交日期: 2026-03-16

llm agents biology protein design scientific agents tool integration non-canonical amino acids autonomous reasoning

使用Agent Rosetta进行蛋白质设计：一个关于专业科学智能体的案例研究 / Protein Design with Agent Rosetta: A Case Study for Specialized Scientific Agents

1️⃣ 一句话总结

这篇论文介绍了一个名为Agent Rosetta的人工智能体，它通过结合大语言模型的推理能力和专业的蛋白质设计软件Rosetta，能够自动完成复杂的蛋白质设计任务，包括使用非标准氨基酸，其性能媲美专业模型和人类专家，证明了精心设计的交互环境对于将AI智能体与专业科学软件结合至关重要。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.22776

arXiv 提交日期: 2026-01-30

llm agents reinforcement learning multi-turn reasoning policy optimization reward shaping tool integration search policy

轮次阶段感知策略优化：解决多轮工具集成推理中的双重同质化困境 / TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization

1️⃣ 一句话总结

本文提出了一种名为TSPO（轮次阶段感知策略优化）的新型强化学习框架，通过其核心机制——首次出现潜在奖励（FOLR），有效解决了多轮工具集成推理中存在的‘过程级奖励同质化’和‘组内奖励同质化’双重困境，无需外部奖励模型或额外标注，即可显著提升模型在多轮推理任务中的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14027

arXiv 提交日期: 2026-01-20

agents llm systems theorem proving formal mathematics coding agents autonomous reasoning tool integration

Numina-Lean-Agent：一个用于形式化数学的开放通用智能体推理系统 / Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics

1️⃣ 一句话总结

这篇论文提出了一个名为Numina-Lean-Agent的创新系统，它直接利用一个通用的代码生成AI作为核心推理引擎，无需专门训练，就能在形式化数学证明中取得顶尖性能，并成功解决了复杂的数学定理和竞赛题目。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.06373

arXiv 提交日期: 2025-12-06

agents multi-modal model evaluation visual reasoning tool integration reinforcement learning referring grounding hallucination correction

VG-Refiner：通过智能体强化学习实现工具精炼的指代与定位推理 / VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为VG-Refiner的新框架，它通过一个‘思考-再思考’的机制和专门的奖励设计，让AI模型能够主动识别并修正视觉工具（如物体检测器）产生的错误输出，从而在需要指认和定位图像中物体的复杂推理任务中，显著减少幻觉并提高准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22659

arXiv 提交日期: 2025-11-27

agents multi-modal model evaluation spatial reasoning vision language models geometric constraints tool integration benchmark

用于空间推理的几何约束智能体 / Geometrically-Constrained Agent for Spatial Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为GCA的新方法，通过将视觉语言模型的角色分解为‘语义分析’和‘任务求解’两个阶段，并引入形式化的几何约束来严格指导推理过程，从而有效解决了现有模型在空间推理中语义理解与几何精度不匹配的核心问题，无需额外训练即可在多个基准测试上显著超越现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.19900

arXiv 提交日期: 2025-11-25

multi-modal agents model training vision-language reasoning self-evolving agents tool integration reinforcement learning autonomous evaluation

Agent0-VL：通过工具集成推理实现自我演化的视觉语言智能体 / Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

1️⃣ 一句话总结

Agent0-VL是一个创新的视觉语言模型框架，通过在单一模型中统一求解器和验证器两个协同角色，结合工具验证和强化学习，实现了无需外部奖励的闭环自我改进。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.16043

arXiv 提交日期: 2025-11-20

agents llm model training self-evolution tool integration co-evolution autonomous agents reasoning

Agent0：通过工具集成推理从零数据释放自进化智能体 / Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为Agent0的自主框架，它通过让两个智能体在工具辅助下相互竞争与学习，无需外部数据就能自我进化，显著提升了语言模型在数学和通用推理任务上的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.13761

arXiv 提交日期: 2025-09-17

llm agents model training mathematical reasoning tool integration reinforcement learning multi-agent self-correction

THOR：基于强化学习的工具集成分层优化方法用于数学推理 / THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为THOR的新方法，通过结合强化学习和外部工具，解决了大型语言模型在数学推理中精度不足的问题，显著提升了模型在数值计算和符号运算等任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.09734

arXiv 提交日期: 2025-09-10

agents benchmark llm agent evaluation tool integration interoperability standard protocol task success

MCP-AgentBench：利用MCP中介工具评估真实世界语言代理性能 / MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

1️⃣ 一句话总结

本研究提出了一个名为MCP-AgentBench的新基准测试，专门用于在真实场景下评估人工智能代理使用标准化工具的能力，旨在解决现有评估方法无法准确反映AI代理在实际应用中的表现差异的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.25243

1️⃣ 一句话总结

arXiv ID: 2603.15952

1️⃣ 一句话总结

arXiv ID: 2601.22776

1️⃣ 一句话总结

arXiv ID: 2601.14027

1️⃣ 一句话总结

arXiv ID: 2512.06373

1️⃣ 一句话总结

arXiv ID: 2511.22659

1️⃣ 一句话总结

arXiv ID: 2511.19900

1️⃣ 一句话总结

arXiv ID: 2511.16043

1️⃣ 一句话总结

arXiv ID: 2509.13761

1️⃣ 一句话总结

arXiv ID: 2509.09734

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.25243 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15952 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.22776 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14027 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.06373 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22659 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.19900 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.16043 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.13761 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.09734 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.25243

arXiv ID: 2603.15952

arXiv ID: 2601.22776

arXiv ID: 2601.14027

arXiv ID: 2512.06373

arXiv ID: 2511.22659

arXiv ID: 2511.19900

arXiv ID: 2511.16043

arXiv ID: 2509.13761

arXiv ID: 2509.09734