The rapid advancement of large language models (LLMs) has spurred the emergence of data agents, autonomous systems designed to orchestrate Data + AI ecosystems for tackling complex data-related tasks. However, the term "data agent" currently suffers from terminological ambiguity and inconsistent adoption, conflating simple query responders with sophisticated autonomous architectures. This terminological ambiguity fosters mismatched user expectations, accountability challenges, and barriers to industry growth. Inspired by the SAE J3016 standard for driving automation, this survey introduces the first systematic hierarchical taxonomy for data agents, comprising six levels that delineate and trace progressive shifts in autonomy, from manual operations (L0) to a vision of generative, fully autonomous data agents (L5), thereby clarifying capability boundaries and responsibility allocation. Through this lens, we offer a structured review of existing research arranged by increasing autonomy, encompassing specialized data agents for data management, preparation, and analysis, alongside emerging efforts toward versatile, comprehensive systems with enhanced autonomy. We further analyze critical evolutionary leaps and technical gaps for advancing data agents, especially the ongoing L2-to-L3 transition, where data agents evolve from procedural execution to autonomous orchestration. Finally, we conclude with a forward-looking roadmap, envisioning proactive, generative data agents.


翻译:大型语言模型(LLM)的快速发展催生了数据智能体的出现,这是一种旨在协调“数据+人工智能”生态系统以应对复杂数据相关任务的自主系统。然而,当前“数据智能体”这一术语存在定义模糊和采用不一致的问题,常将简单的查询响应系统与复杂的自主架构混为一谈。这种术语上的模糊性导致了用户期望错位、责任归属挑战以及行业发展障碍。受SAE J3016驾驶自动化标准的启发,本综述首次提出了一个系统化的数据智能体分层分类法,该分类法包含六个级别,用以界定和追踪从手动操作(L0)到生成式、完全自主的数据智能体(L5)愿景这一过程中自主性的渐进式转变,从而明确能力边界与责任分配。基于此框架,我们对现有研究进行了结构化梳理,按自主性递增的顺序,涵盖了用于数据管理、准备和分析的专用数据智能体,以及为构建自主性更强、功能更全面的通用系统所做的初步探索。我们进一步分析了推动数据智能体发展的关键演进跃迁与技术鸿沟,特别是当前正在进行的从L2到L3的过渡阶段,即数据智能体从程序化执行向自主化编排的演进。最后,我们提出了一个前瞻性的发展路线图,展望了主动式、生成式数据智能体的未来。

0
下载
关闭预览

相关内容

数据智能体综述:新兴范式还是被高估的炒作?
专知会员服务
22+阅读 · 2025年10月28日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
基于大型语言模型的软件工程智能体综述
专知会员服务
60+阅读 · 2024年9月6日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
1+阅读 · 今天15:35
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员