Users across enterprises increasingly rely on AI agents to query their data through natural language. However, building reliable data agents remains difficult because real-world data is often fragmented across multiple heterogeneous database systems, with inconsistent references and information buried in unstructured text. Existing benchmarks only tackle individual pieces of this problem -- e.g., translating natural-language questions into SQL queries, answering questions over small tables provided in context -- but do not evaluate the full pipeline of integrating, transforming, and analyzing data across multiple database systems. To fill this gap, we present the Data Agent Benchmark (DAB), grounded in a formative study of enterprise data agent workloads across six industries. DAB comprises 54 queries across 12 datasets, 9 domains, and 4 database management systems. On DAB, the best frontier model (Gemini-3-Pro) achieves only 38% pass@1 accuracy. We benchmark five frontier LLMs, analyze their failure modes, and distill takeaways for future data agent development. Our benchmark and experiment code are published at github.com/ucbepic/DataAgentBench.


翻译:[translated abstract in Chinese] 企业用户日益依赖AI代理通过自然语言查询其数据。然而,构建可靠的数据代理仍面临诸多困难,因为真实世界的数据往往分散在多个异构数据库系统中,存在不一致的引用以及隐藏在非结构化文本中的信息。现有基准测试仅针对该问题的单个环节(例如,将自然语言问题转换为SQL查询、基于上下文提供的小型表格回答问题),但未能评估跨多个数据库系统进行数据集成、转换和分析的完整流程。为填补这一空白,我们基于对六个行业的企业数据代理工作负载形成性研究,提出了数据代理基准(DAB)。该基准涵盖12个数据集、9个领域、4个数据库管理系统上的54个查询。在DAB上,最先进的前沿模型(Gemini-3-Pro)仅达到38%的首位通过率(pass@1)准确率。我们对五个前沿大语言模型进行基准测试,分析其失败模式,并提炼出对未来数据代理开发的启示。我们的基准测试及实验代码已发布于 github.com/ucbepic/DataAgentBench。

0
下载
关闭预览

相关内容

AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
32+阅读 · 2025年3月27日
中国AI Agent行业研究报告(二)
专知会员服务
48+阅读 · 2025年3月13日
AI Agent:基于大模型的自主智能体
专知会员服务
249+阅读 · 2023年9月9日
推荐!《人与AI协作中的可解释人工智能》320页论文
专知会员服务
137+阅读 · 2023年7月31日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
相似词查询:玩转腾讯 AI Lab 中文词向量
AINLP
11+阅读 · 2019年2月25日
手把手丨用TensorFlow开发问答系统
大数据文摘
21+阅读 · 2017年11月29日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月21日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关VIP内容
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
32+阅读 · 2025年3月27日
中国AI Agent行业研究报告(二)
专知会员服务
48+阅读 · 2025年3月13日
AI Agent:基于大模型的自主智能体
专知会员服务
249+阅读 · 2023年9月9日
推荐!《人与AI协作中的可解释人工智能》320页论文
专知会员服务
137+阅读 · 2023年7月31日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员