arXiv ID:
2601.21654
arXiv 提交日期: 2026-01-29
ScholarGym:基于学术文献检索的深度研究工作流基准测试 / ScholarGym: Benchmarking Deep Research Workflows on Academic Literature Retrieval
1️⃣ 一句话总结
这篇论文提出了一个名为ScholarGym的模拟测试平台,它通过一个包含57万篇论文的静态数据库和2500多个专家标注的问题,解决了评估AI进行深度文献研究时因依赖实时网络工具而导致结果不可重复、难以公平比较的难题。