DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems

📄 Abstract - DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems

Recent LLM-based data agents aim to automate data science tasks ranging from data analysis to deep learning. However, the open-ended nature of real-world data science problems, which often span multiple taxonomies and lack standard answers, poses a significant challenge for evaluation. To address this, we introduce DSAEval, a benchmark comprising 641 real-world data science problems grounded in 285 diverse datasets, covering both structured and unstructured data (e.g., vision and text). DSAEval incorporates three distinctive features: (1) Multimodal Environment Perception, which enables agents to interpret observations from multiple modalities including text and vision; (2) Multi-Query Interactions, which mirror the iterative and cumulative nature of real-world data science projects; and (3) Multi-Dimensional Evaluation, which provides a holistic assessment across reasoning, code, and results. We systematically evaluate 11 advanced agentic LLMs using DSAEval. Our results show that Claude-Sonnet-4.5 achieves the strongest overall performance, GPT-5.2 is the most efficient, and MiMo-V2-Flash is the most cost-effective. We further demonstrate that multimodal perception consistently improves performance on vision-related tasks, with gains ranging from 2.04% to 11.30%. Overall, while current data science agents perform well on structured data and routine data anlysis workflows, substantial challenges remain in unstructured domains. Finally, we offer critical insights and outline future research directions to advance the development of data science agents.

DSAEval：一个用于评估数据科学代理的综合基准 / DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems

1️⃣ 一句话总结

本文提出了DSAEval，一个包含641个真实世界数据科学问题、覆盖多领域和多模态数据的综合性基准，旨在通过多模态环境感知、多轮查询交互和多维度评估来全面评估基于大语言模型的数据科学代理的能力。

2️⃣ 论文创新点

1. 综合性真实世界基准

创新点：DSAEval是一个包含641个基于285个多样化数据集的真实世界数据科学问题的基准，覆盖结构化与非结构化数据（如视觉和文本），旨在解决以往基准范围有限、仅关注部分子领域或孤立流程阶段的问题。
区别/改进：通过大规模真实问题提供了全面的评估，超越了传统基准的局限性。
意义：为评估LLM数据科学代理在开放、多领域、无标准答案的真实数据科学问题上的效能提供了标准化、全面的测试平台。

2. 多模态环境感知

创新点：使代理能够解释并与环境中的多种模态（如文本、表格数据、视觉图表）进行交互，充分利用了代理LLM的原生多模态能力。
区别/改进：超越了纯文本交互的限制，相比单文本模式基线，在视觉相关任务上能带来显著的性能提升。
意义：确保评估能更真实地模拟处理多模态数据（尤其是视觉任务）的实际场景，实验证明能提升相关任务性能。

3. 多轮查询交互

创新点：模拟真实数据科学工作流的迭代和累积特性，每个会话基于特定数据集，包含多个相互依赖的子任务，反映了前置步骤结果直接影响后续决策的现实工作流程。
区别/改进：超越了单次、孤立的任务评估，更贴近真实、多步骤的数据分析工作流。
意义：使评估更能捕捉代理在复杂、多步骤项目中的实际表现和推理能力。

4. 多维度评估协议

创新点：提供跨推理、代码和结果三个维度的整体评估，使用专门的“评判模型”进行加权综合评分，而非依赖简单的精确匹配准确率。
区别/改进：克服了开放任务难以用单一标准评估的局限，综合考量了方法合理性、代码质量和结果有效性，并允许与参考答案不同但有效或更优的解决方案。
意义：为开放域数据科学任务的评估提供了更全面、灵活和符合实际的评价体系。

3️⃣ 主要结果与价值

结果亮点

在评估的11个先进LLM/VLM中，Claude-Sonnet-4.5整体性能最强，GPT-5.2操作效率最高，MiMo-V2-Flash最具成本效益。
模型在处理结构化表格数据和标准数据工程任务上表现出色，但在非结构化数据（CV、NLP）和无监督学习任务（如聚类）上存在局限。
多模态感知能力在所有任务上都能持续提升模型性能，尤其在视觉相关任务上，相比纯文本基线，性能提升范围在2.04%到11.30%之间。
模型在数据摄取与准备阶段表现强劲，但在需要迭代实验和深度分析直觉的预测、模型训练与优化等后期复杂阶段表现最弱。

实际价值

为研究者和开发者提供了一个标准化、全面的工具，用于客观、系统地比较不同智能体在复杂数据科学工作流中的能力。
揭示了当前代理更擅长扮演数据分析师角色，而非深度学习工程师，为未来研究重点（提升复杂训练、预测和优化任务的能力）提供了依据。
效率与成本效益的联合度量方法，为实际部署AI智能体提供了关键的权衡分析视角，有助于用户根据预算和效率需求选择最合适的模型。
实证了视觉上下文对于数据科学任务中基于证据的解释和减少幻觉的重要性，为智能体设计提供了关键方向。

4️⃣ 术语表

DSAEval：一个用于在真实世界工作流中评估自主数据科学智能体的综合性基准，具有多模态环境感知、多查询交互和多维度评估三个关键特性。
数据科学代理 (data science agents)：基于大型语言模型（LLM）的代理，旨在自动化从数据分析到深度学习等一系列数据科学任务。
多模态环境感知：DSAEval采用的一种方法，使代理能够直接感知和交互图像数据及视觉输出，从而提升在视觉相关任务上的性能。
Session：在DSAEval中定义的一个会话S = {D, Q, H0}，用于模拟解决复杂数据科学问题的多步骤交互过程，其中D是数据集，Q是逻辑关联的子任务序列，H0是初始上下文。
软参考真值：由先进LLM合成的特定问题、推理过程和相应答案，作为评估过程中的参考标准。
QRA pairs：问题-推理-答案对，是DSAEval基准中用于评估的基本单元，计划扩展至超10000个。
Claude-Sonnet-4.5：在评估中表现最优的模型，达到了最高的加权总分（8.164），是当前的State-of-the-Art模型。
MiMo-V2-Flash：在成本效益分析中表现最佳的模型，以相对较低的成本（约0.007美元/任务）提供了与前沿专有模型相当的性能，被视为最佳价值选择。
Kaggle：一个数据科学竞赛平台和社区，提供大量数据集和代码笔记本（Notebooks），是数据科学实践和研究的重要数据来源。
Jupyter Notebook (Ipynb)：一种交互式计算环境文档格式，广泛用于数据清洗、探索性数据分析（EDA）、模型开发和结果展示，是数据科学工作流中的核心工具。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 综合性真实世界基准

2. 多模态环境感知

3. 多轮查询交互

4. 多维度评估协议

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 综合性真实世界基准

2. 多模态环境感知

3. 多轮查询交互

4. 多维度评估协议

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要