arXiv ID:
2510.21652
arXiv 提交日期: 2025-10-24
AstaBench:基于科学研究套件的AI智能体严谨基准测试 / AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite
1️⃣ 一句话总结
这篇论文提出了一个名为AstaBench的全面基准测试套件,用于科学评估AI智能体在科研任务中的实际能力,并通过大规模测试发现当前AI在整体科研辅助方面仍存在明显局限。