Data agents are an emerging paradigm that leverages large language models (LLMs) and tool-using agents to automate data management, preparation, and analysis tasks. However, the term "data agent" is currently used inconsistently, conflating simple query responsive assistants with aspirational fully autonomous "data scientists". This ambiguity blurs capability boundaries and accountability, making it difficult for users, system builders, and regulators to reason about what a "data agent" can and cannot do. In this tutorial, we propose the first hierarchical taxonomy of data agents from Level 0 (L0, no autonomy) to Level 5 (L5, full autonomy). Building on this taxonomy, we will introduce a lifecycleand level-driven view of data agents. We will (1) present the L0-L5 taxonomy and the key evolutionary leaps that separate simple assistants from truly autonomous data agents, (2) review representative L0-L2 systems across data management, preparation, and analysis, (3) highlight emerging Proto-L3 systems that strive to autonomously orchestrate end-to-end data workflows to tackle diverse and comprehensive data-related tasks under supervision, and (4) discuss forward-looking research challenges towards proactive (L4) and generative (L5) data agents. We aim to offer both a practical map of today's systems and a research roadmap for the next decade of data-agent development.


翻译:数据智能体是一种新兴范式,它利用大型语言模型(LLMs)和工具使用型智能体来自动化数据管理、准备和分析任务。然而,当前“数据智能体”这一术语的使用并不一致,常将简单的查询响应助手与理想化的全自主“数据科学家”混为一谈。这种模糊性掩盖了能力边界和责任归属,使得用户、系统构建者和监管者难以准确判断“数据智能体”能做什么以及不能做什么。在本教程中,我们首次提出了数据智能体的层级分类法,从第0级(L0,无自主性)到第5级(L5,完全自主性)。基于此分类法,我们将引入一个以生命周期和层级驱动的数据智能体视图。我们将:(1)介绍L0至L5的分类法,以及区分简单助手与真正自主数据智能体的关键演进跃迁;(2)回顾数据管理、准备和分析领域中具有代表性的L0至L2系统;(3)重点介绍新兴的原型L3系统,这些系统致力于在监督下自主编排端到端数据工作流,以应对多样且全面的数据相关任务;(4)讨论面向主动性(L4)和生成性(L5)数据智能体的前瞻性研究挑战。我们的目标是既提供当前系统的实用图谱,也为未来十年的数据智能体发展提供研究路线图。

0
下载
关闭预览

相关内容

数据智能体综述:新兴范式还是被高估的炒作?
专知会员服务
22+阅读 · 2025年10月28日
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
AI智能体编程:技术、挑战与机遇综述
专知会员服务
41+阅读 · 2025年8月18日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
AI智能体与代理式AI:概念分类、应用与挑战
专知会员服务
26+阅读 · 2025年5月17日
OpenAI 32页《智能体》指南,如何构建首个智能体系统
专知会员服务
50+阅读 · 2025年4月18日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
相关VIP内容
数据智能体综述:新兴范式还是被高估的炒作?
专知会员服务
22+阅读 · 2025年10月28日
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
AI智能体编程:技术、挑战与机遇综述
专知会员服务
41+阅读 · 2025年8月18日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
AI智能体与代理式AI:概念分类、应用与挑战
专知会员服务
26+阅读 · 2025年5月17日
OpenAI 32页《智能体》指南,如何构建首个智能体系统
专知会员服务
50+阅读 · 2025年4月18日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员