🤖 系统
11-30 17:46
📄 论文总结
AstaBench:基于科学研究套件的AI智能体严谨基准测试 / AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite
1️⃣ 一句话总结
这篇论文提出了一个名为AstaBench的全面基准测试套件,用于科学评估AI智能体在科研任务中的实际能力,并通过大规模测试发现当前AI在整体科研辅助方面仍存在明显局限。