Recent LLM-based data agents aim to automate data science tasks ranging from data analysis to deep learning. However, the open-ended nature of real-world data science problems, which often span multiple taxonomies and lack standard answers, poses a significant challenge for evaluation. To address this, we introduce DSAEval, a benchmark comprising 641 real-world data science problems grounded in 285 diverse datasets, covering both structured and unstructured data (e.g., image and text). DSAEval incorporates three distinctive features: (1) Multimodal Environment Perception, which enables agents to interpret observations from multiple modalities, including text and vision; (2) Multi-Query Interactions, which mirror the iterative and cumulative nature of real-world data science projects; and (3) Multi-Dimensional Evaluation, which provides a holistic assessment across reasoning, code, and results. We systematically evaluate 13 recent advanced agentic LLMs using DSAEval. Our results show that Claude-Sonnet-4.5 achieves the strongest overall performance, MiMo-V2-Pro and GPT-5.2 lead in duration and step efficiency, respectively, and MiMo-V2-Flash is the most cost-effective. We further demonstrate that multimodal perception consistently improves performance on vision-related tasks, with gains ranging from 2.04\% to 11.30\%. Overall, while current data science agents perform well on structured data and routine data analysis workflows, substantial challenges remain in unstructured domains. Finally, we offer critical insights and outline future research directions.


翻译:近期基于大语言模型(LLM)的数据智能体致力于自动化从数据分析到深度学习的数据科学任务。然而,真实世界数据科学问题具有开放性——通常跨越多个分类体系且缺乏标准答案——这给评估带来了重大挑战。为解决这一问题,我们提出了DSAEval基准,该基准包含641个源自285个多样化数据集的真实世界数据科学问题,覆盖结构化与非结构化数据(如图像和文本)。DSAEval具备三个显著特征:(1) 多模态环境感知,使智能体能够解读来自文本与视觉等多种模态的观察结果;(2) 多查询交互,模拟真实世界数据科学项目迭代累积的特性;(3) 多维度评估,从推理、代码和结果三个层面提供整体性评估。我们使用DSAEval系统评估了13个近期先进的智能体LLM。结果表明,Claude-Sonnet-4.5在整体性能上表现最优,MiMo-V2-Pro在运行时长方面领先,GPT-5.2在步骤效率方面领先,而MiMo-V2-Flash则最具成本效益。我们进一步证明,多模态感知能持续提升视觉相关任务的性能,增益幅度达2.04%至11.30%。总体而言,尽管当前数据科学智能体在结构化数据和常规数据分析流程中表现良好,但在非结构化领域仍面临重大挑战。最后,我们提出了关键见解并展望了未来研究方向。

0
下载
关闭预览

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
数据智能体综述:新兴范式还是被高估的炒作?
专知会员服务
22+阅读 · 2025年10月28日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
大语言模型智能体的评估与基准:综述
专知会员服务
50+阅读 · 2025年7月31日
【硬核书】数据科学,282页pdf
专知
26+阅读 · 2022年11月29日
【干货书】数据科学手册,456页pdf
专知
15+阅读 · 2021年4月28日
报告 | 腾讯知文,从0到1打造下一代智能问答引擎【CCF-GAIR】
机器学习算法与Python学习
13+阅读 · 2018年7月4日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员