📄 论文总结
输入重构如何提升复杂动态环境中工具使用的准确性?基于τ-bench的研究 / How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench
1️⃣ 一句话总结
本研究提出了一种名为IRMA的多智能体框架,通过自动重构用户查询并加入相关领域规则和工具建议,显著提升了大型语言模型在复杂动态环境中使用工具的准确性和可靠性。
请先 登录 后再提交论文
输入重构如何提升复杂动态环境中工具使用的准确性?基于τ-bench的研究 / How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench
本研究提出了一种名为IRMA的多智能体框架,通过自动重构用户查询并加入相关领域规则和工具建议,显著提升了大型语言模型在复杂动态环境中使用工具的准确性和可靠性。
MCP-Bench:通过MCP服务器对使用工具的LLM智能体在复杂现实任务中的基准测试 / MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers
这篇论文提出了一个名为MCP-Bench的新基准测试,通过连接28个真实领域的工具服务器,评估大型语言模型在需要多步骤规划、工具协调和跨领域工作流的复杂现实任务中的表现,发现现有先进模型仍面临显著挑战。
智能体闪电:用强化学习训练任意AI智能体 / Agent Lightning: Train ANY AI Agents with Reinforcement Learning
本文提出了一个名为Agent Lightning的通用框架,能够在不修改现有代码的情况下,使用强化学习高效训练各类AI智能体,并支持复杂场景如多智能体和动态工作流。
PaSa:基于大语言模型的全面学术论文搜索智能体 / PaSa: An LLM Agent for Comprehensive Academic Paper Search
这篇论文提出了一个名为PaSa的智能学术搜索助手,它能够自主决策、调用工具并阅读论文,通过强化学习和合成数据训练,在真实场景的学术查询中显著超越了谷歌、ChatGPT等现有搜索方法。