arXiv最新AI论文速览速学

🔍

标签: #tool usage ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Context-Fractured Decomposition Attacks on Tool-Using LLM Agents: Exploiting Artifact Provenance Gaps 06-09

arXiv ID: 2602.22897

arXiv 提交日期: 2026-02-26

agents multi-modal benchmark omni-modal agents tool usage cross-modal reasoning foundation agent evaluation benchmark

OmniGAIA：迈向原生全模态AI助手 / OmniGAIA: Towards Native Omni-Modal AI Agents

1️⃣ 一句话总结

这篇论文提出了一个名为OmniGAIA的全模态AI助手评估基准，并开发了一个名为OmniAtlas的原生全模态基础智能体，旨在让AI能像人类一样综合处理视觉、听觉和语言信息，并进行复杂推理和工具调用，以更好地解决现实世界中的复杂任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10439

arXiv 提交日期: 2026-02-11

audio agents model training audio language models reinforcement learning tool usage data efficiency audio understanding

AudioRouter：一种基于强化学习的双推理框架，实现数据高效音频理解 / AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为AudioRouter的强化学习框架，它让大型音频语言模型学会智能地决定何时以及如何使用外部音频工具来辅助推理，从而在极少训练数据下显著提升对声音细节的理解能力，避免了传统方法需要海量数据训练的弊端。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16206

arXiv 提交日期: 2026-01-22

llm agents systems code sandbox agent framework reinforcement learning tool usage general intelligence

LLM-in-Sandbox：通过代码沙箱解锁大语言模型的通用智能 / LLM-in-Sandbox Elicits General Agentic Intelligence

1️⃣ 一句话总结

本文提出了LLM-in-Sandbox框架，让大语言模型在代码沙箱（虚拟计算机）中自主探索，无需额外训练即可激发其在数学、物理、化学、生物医学等非代码领域的通用智能，并通过强化学习（LLM-in-Sandbox-RL）进一步提升模型能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.11044

arXiv 提交日期: 2026-01-16

agents benchmark llm autonomous agents agent evaluation tool usage long-context automated assessment

AgencyBench：在百万令牌真实世界场景中评测自主智能体的前沿能力 / AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

1️⃣ 一句话总结

这篇论文提出了一个名为AgencyBench的新基准测试，它通过模拟真实、复杂且耗时的任务，自动评估不同AI智能体的综合能力，发现闭源模型整体表现优于开源模型，并揭示了智能体性能与其运行框架紧密相关。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10355

arXiv 提交日期: 2026-01-15

llm agents data tool usage data synthesis multi-turn interaction trajectory generation benchmark

解锁隐性经验：从文本中合成工具使用轨迹 / Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text

1️⃣ 一句话总结

这篇论文提出了一种名为GEM的新方法，能够从普通的文本资料中自动提取和生成大型语言模型学习使用工具所需的多轮对话数据，从而有效提升了模型使用工具解决问题的能力，并且比传统方法成本更低、效果更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.09259

arXiv 提交日期: 2026-01-14

llm agents systems reasoning framework lookahead strategy tool usage trajectory stability meta-adaptive exploration

MAXS：基于大语言模型智能体的元自适应探索 / MAXS: Meta-Adaptive Exploration with LLM Agents

1️⃣ 一句话总结

本文提出了一种名为MAXS的智能推理框架，它通过前瞻性策略和轨迹稳定性评估，有效解决了大语言模型智能体在工具调用时目光短浅和推理路径不稳定的问题，从而在保证推理质量的同时提升了计算效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05960

arXiv 提交日期: 2026-01-09

llm agents model training inference-time reasoning feedback distillation memory systems tool usage cost reduction

将反馈提炼为记忆即工具 / Distilling Feedback into Memory-as-a-Tool

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过将一次性的反馈评论转化为可存储和检索的指导规则，让大型语言模型在后续任务中能快速达到与多次精细调优相当的效果，同时大幅降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05503

arXiv 提交日期: 2026-01-09

llm model evaluation systems retrieval-augmented generation efficiency hallucination benchmark tool usage

检索增强大语言模型中的过度搜索问题 / Over-Searching in Search-Augmented Large Language Models

1️⃣ 一句话总结

这篇论文研究发现，检索增强大语言模型存在‘过度搜索’问题，即模型会不必要地调用外部搜索工具，这不仅浪费算力还可能导致错误答案，作者通过系统评估揭示了该问题的成因与影响，并提出了新的衡量指标和缓解方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24330

arXiv 提交日期: 2025-12-30

multi-modal agents reinforcement learning vision-language models tool usage agentic reasoning benchmark policy optimization

SenseNova-MARS：通过强化学习赋能多模态智能体推理与搜索 / SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为SenseNova-MARS的新框架，它通过强化学习教会视觉语言模型像人一样，在解决复杂的视觉问题时，能动态、连贯地交替使用图像搜索、文本搜索和图像裁剪等多种外部工具，从而在知识密集型任务上超越了GPT-5等顶尖模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.02395

arXiv 提交日期: 2025-12-02

agents multi-modal model training multimodal agents interleaved reasoning supervised fine-tuning tool usage visual planning

Skywork-R1V4：通过图像与深度研究的交替思考迈向具身多模态智能 / Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

1️⃣ 一句话总结

这篇论文提出了一个名为Skywork-R1V4的新型多模态智能体模型，它通过将图像处理与网络搜索深度结合并交替推理，仅用少量高质量数据训练就实现了超越现有顶尖模型的复杂任务解决能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.22897

1️⃣ 一句话总结

arXiv ID: 2602.10439

1️⃣ 一句话总结

arXiv ID: 2601.16206

1️⃣ 一句话总结

arXiv ID: 2601.11044

1️⃣ 一句话总结

arXiv ID: 2601.10355

1️⃣ 一句话总结

arXiv ID: 2601.09259

1️⃣ 一句话总结

arXiv ID: 2601.05960

1️⃣ 一句话总结

arXiv ID: 2601.05503

1️⃣ 一句话总结

arXiv ID: 2512.24330

1️⃣ 一句话总结

arXiv ID: 2512.02395

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.22897 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10439 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16206 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.11044 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10355 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.09259 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05960 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05503 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24330 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.02395 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.22897

arXiv ID: 2602.10439

arXiv ID: 2601.16206

arXiv ID: 2601.11044

arXiv ID: 2601.10355

arXiv ID: 2601.09259

arXiv ID: 2601.05960

arXiv ID: 2601.05503

arXiv ID: 2512.24330

arXiv ID: 2512.02395