Constructing Extract-Load-Transform (ELT) pipelines is a labor-intensive data engineering task and a high-impact target for AI automation. On ELT-Bench, the first benchmark for end-to-end ELT pipeline construction, AI agents initially showed low success rates, suggesting they lacked practical utility. We revisit these results and identify two factors causing a substantial underestimation of agent capabilities. First, re-evaluating ELT-Bench with upgraded large language models reveals that the extraction and loading stage is largely solved, while transformation performance improves significantly. Second, we develop an Auditor-Corrector methodology that combines scalable LLM-driven root-cause analysis with rigorous human validation (inter-annotator agreement Fleiss' kappa = 0.85) to audit benchmark quality. Applying this to ELT-Bench uncovers that most failed transformation tasks contain benchmark-attributable errors -- including rigid evaluation scripts, ambiguous specifications, and incorrect ground truth -- that penalize correct agent outputs. Based on these findings, we construct ELT-Bench-Verified, a revised benchmark with refined evaluation logic and corrected ground truth. Re-evaluating on this version yields significant improvement attributable entirely to benchmark correction. Our results show that both rapid model improvement and benchmark quality issues contributed to underestimating agent capabilities. More broadly, our findings echo observations of pervasive annotation errors in text-to-SQL benchmarks, suggesting quality issues are systemic in data engineering evaluation. Systematic quality auditing should be standard practice for complex agentic tasks. We release ELT-Bench-Verified to provide a more reliable foundation for progress in AI-driven data engineering automation.


翻译:构建提取-加载-转换(ELT)流水线是一项劳动密集型的数据工程任务,也是AI自动化应用的高影响力目标。在首个面向端到端ELT流水线构建的基准测试ELT-Bench上,AI智能体的初始成功率较低,表明其缺乏实际应用价值。我们重新审视这些结果,并发现导致智能体能力被大幅低估的两类因素。首先,使用升级后的大语言模型重新评估ELT-Bench发现,提取与加载阶段基本得到解决,而转换阶段的性能则显著提升。其次,我们开发了"审计-校正"方法,将可扩展的LLM驱动的根因分析与严格的人工验证(标注者间一致性Fleiss' kappa=0.85)相结合,用于审计基准测试质量。将此方法应用于ELT-Bench,发现大多数失败的转换任务中存在基准可归因错误——包括僵化的评估脚本、模糊的规范和错误的真值——这些错误惩罚了正确的智能体输出。基于这些发现,我们构建了ELT-Bench-Verified,一个经过评估逻辑改进和真值校正的修订版基准。新版基准上的重新评估结果显示出完全归因于基准校正的显著性能提升。我们的结果表明,模型快速改进和基准质量问题是共同导致智能体能力被低估的原因。更广泛而言,我们的发现与文本到SQL基准中普遍存在注释错误的观察相呼应,表明数据工程评估中的质量问题具有系统性。系统性质量审计应成为复杂智能体任务的标准化实践。我们发布ELT-Bench-Verified,为AI驱动的数据工程自动化的进展提供更可靠的基础。

0
下载
关闭预览

相关内容

伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
48+阅读 · 3月1日
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
35+阅读 · 2025年12月31日
AI智能体基础设施
专知会员服务
43+阅读 · 2025年7月12日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
《负责任的AI智能体》最新50页
专知会员服务
61+阅读 · 2025年3月2日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
45K!刚面完 AI 岗,这几点分享给你!
AI100
17+阅读 · 2018年12月18日
AI综述专栏 | 基于深度学习的目标检测算法综述
人工智能前沿讲习班
12+阅读 · 2018年12月7日
【AIDL专栏】鲁继文:面向视觉内容理解的深度度量学习
人工智能前沿讲习班
32+阅读 · 2018年5月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
0+阅读 · 4月24日
Arxiv
0+阅读 · 2月23日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 今天16:48
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关VIP内容
伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
48+阅读 · 3月1日
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
35+阅读 · 2025年12月31日
AI智能体基础设施
专知会员服务
43+阅读 · 2025年7月12日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
《负责任的AI智能体》最新50页
专知会员服务
61+阅读 · 2025年3月2日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员