arXiv ID:
2601.16344
arXiv 提交日期: 2026-01-22
DSGym:一个用于评估和训练数据科学智能体的整体框架 / DSGym: A Holistic Framework for Evaluating and Training Data Science Agents
1️⃣ 一句话总结
这篇论文提出了一个名为DSGym的标准化框架,它通过提供一个可扩展的、包含真实数据执行环境的测试平台,解决了现有数据科学智能体评估标准不统一、任务覆盖面窄且容易取巧的问题,并展示了如何利用该框架训练出超越GPT-4o的模型。