← 返回列表

菜单

🤖 系统
📄 Abstract - AstaBench: A Benchmark Suite for AI Agents in Scientific Research
正在获取摘要...
顶级标签: agents
详细标签: scientific research agent evaluation benchmark suite tool usage cost analysis 或 搜索:

📄 论文总结

AstaBench:面向科学研究的AI代理基准测试套件 / AstaBench: A Benchmark Suite for AI Agents in Scientific Research


1️⃣ 一句话总结

AstaBench是首个全面评估AI代理在科学研究任务中表现的标准基准套件,包含2400多个覆盖科学发现全流程的问题,并提供可复现的研究环境和生产级搜索工具以实现变量控制。


2️⃣ 论文创新点

1. 全面性基准设计

2. Asta环境

3. agent-eval评估工具包

4. 端到端研究任务


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF