Data preparation aims to denoise raw datasets, uncover cross-dataset relationships, and extract valuable insights from them, which is essential for a wide range of data-centric applications. Driven by (i) rising demands for application-ready data (e.g., for analytics, visualization, decision-making), (ii) increasingly powerful LLM techniques, and (iii) the emergence of infrastructures that facilitate flexible agent construction (e.g., using Databricks Unity Catalog), LLM-enhanced methods are rapidly becoming a transformative and potentially dominant paradigm for data preparation. By investigating hundreds of recent literature works, this paper presents a systematic review of this evolving landscape, focusing on the use of LLM techniques to prepare data for diverse downstream tasks. First, we characterize the fundamental paradigm shift, from rule-based, model-specific pipelines to prompt-driven, context-aware, and agentic preparation workflows. Next, we introduce a task-centric taxonomy that organizes the field into three major tasks: data cleaning (e.g., standardization, error processing, imputation), data integration (e.g., entity matching, schema matching), and data enrichment (e.g., data annotation, profiling). For each task, we survey representative techniques, and highlight their respective strengths (e.g., improved generalization, semantic understanding) and limitations (e.g., the prohibitive cost of scaling LLMs, persistent hallucinations even in advanced agents, the mismatch between advanced methods and weak evaluation). Moreover, we analyze commonly used datasets and evaluation metrics (the empirical part). Finally, we discuss open research challenges and outline a forward-looking roadmap that emphasizes scalable LLM-data systems, principled designs for reliable agentic workflows, and robust evaluation protocols.


翻译:数据准备旨在对原始数据集进行去噪、揭示跨数据集关联并从中提取有价值洞见,这对各类以数据为中心的应用至关重要。在以下因素驱动下:(i) 对应用就绪数据(如用于分析、可视化、决策制定)的需求日益增长,(ii) 日益强大的LLM技术,以及(iii) 促进灵活智能体构建的基础设施兴起(例如使用Databricks Unity Catalog),基于LLM增强的数据准备方法正迅速成为该领域的变革性且可能占据主导地位的范式。本文通过调研数百篇近期文献,对这一快速发展领域进行系统性综述,重点关注利用LLM技术为多样化下游任务准备数据的方法。首先,我们阐述了从基于规则、模型特定的流水线向提示驱动、上下文感知、智能体化工作流程的根本范式转变。接着,我们提出以任务为中心的分类体系,将该领域划分为三大核心任务:数据清洗(如标准化、错误处理、缺失值填补)、数据集成(如实体匹配、模式匹配)与数据增强(如数据标注、画像分析)。针对每类任务,我们综述了代表性技术,并着重分析其优势(如提升泛化能力、增强语义理解)与局限(如LLM扩展的过高成本、先进智能体中持续存在的幻觉问题、先进方法与薄弱评估之间的脱节)。此外,我们系统分析了常用数据集与评估指标(实证研究部分)。最后,我们探讨了开放研究挑战,并勾勒出前瞻性发展路线图,重点强调可扩展的LLM-数据系统、可靠智能体工作流程的原则性设计以及鲁棒的评估协议。

0
下载
关闭预览

相关内容

LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
如何做数据治理?
智能交通技术
19+阅读 · 2019年4月20日
清华178页深度报告:一文看懂AI数据挖掘
人工智能学家
10+阅读 · 2019年2月18日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
13+阅读 · 2017年9月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员