arXiv ID:
2601.13591
arXiv 提交日期: 2026-01-20
DSAEval:一个用于评估数据科学代理的综合基准 / DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems
1️⃣ 一句话总结
本文提出了DSAEval,一个包含641个真实世界数据科学问题、覆盖多领域和多模态数据的综合性基准,旨在通过多模态环境感知、多轮查询交互和多维度评估来全面评估基于大语言模型的数据科学代理的能力。