Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents - 专知论文

会员服务 ·

0

基准 · 基准测试 · AI · 数据库 · 系统 ·

Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

翻译：[translated title in Chinese] AI代理能否回答您的数据问题？面向数据代理的基准测试

Ruiying Ma,Shreya Shankar,Ruiqi Chen,Yiming Lin,Sepanta Zeighami,Rajoshi Ghosh,Abhinav Gupta,Anushrut Gupta,Tanmai Gopal,Aditya G. Parameswaran

from arxiv, 22 pages, 7 figures, 9 tables

Users across enterprises increasingly rely on AI agents to query their data through natural language. However, building reliable data agents remains difficult because real-world data is often fragmented across multiple heterogeneous database systems, with inconsistent references and information buried in unstructured text. Existing benchmarks only tackle individual pieces of this problem -- e.g., translating natural-language questions into SQL queries, answering questions over small tables provided in context -- but do not evaluate the full pipeline of integrating, transforming, and analyzing data across multiple database systems. To fill this gap, we present the Data Agent Benchmark (DAB), grounded in a formative study of enterprise data agent workloads across six industries. DAB comprises 54 queries across 12 datasets, 9 domains, and 4 database management systems. On DAB, the best frontier model (Gemini-3-Pro) achieves only 38% pass@1 accuracy. We benchmark five frontier LLMs, analyze their failure modes, and distill takeaways for future data agent development. Our benchmark and experiment code are published at github.com/ucbepic/DataAgentBench.

翻译：[translated abstract in Chinese] 企业用户日益依赖AI代理通过自然语言查询其数据。然而，构建可靠的数据代理仍面临诸多困难，因为真实世界的数据往往分散在多个异构数据库系统中，存在不一致的引用以及隐藏在非结构化文本中的信息。现有基准测试仅针对该问题的单个环节（例如，将自然语言问题转换为SQL查询、基于上下文提供的小型表格回答问题），但未能评估跨多个数据库系统进行数据集成、转换和分析的完整流程。为填补这一空白，我们基于对六个行业的企业数据代理工作负载形成性研究，提出了数据代理基准（DAB）。该基准涵盖12个数据集、9个领域、4个数据库管理系统上的54个查询。在DAB上，最先进的前沿模型（Gemini-3-Pro）仅达到38%的首位通过率（pass@1）准确率。我们对五个前沿大语言模型进行基准测试，分析其失败模式，并提炼出对未来数据代理开发的启示。我们的基准测试及实验代码已发布于 github.com/ucbepic/DataAgentBench。

0

相关内容

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

专知会员服务

32+阅读 · 2025年3月27日

中国AI Agent行业研究报告（二）

中国AI Agent行业研究报告（二）

专知会员服务

48+阅读 · 2025年3月13日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

249+阅读 · 2023年9月9日

推荐！《人与AI协作中的可解释人工智能》320页论文

推荐！《人与AI协作中的可解释人工智能》320页论文

专知会员服务

137+阅读 · 2023年7月31日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

76+阅读 · 2023年3月21日

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

专知会员服务

29+阅读 · 2022年2月17日

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

专知会员服务

55+阅读 · 2020年3月8日

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

专知会员服务

84+阅读 · 2019年11月20日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

新智元

30+阅读 · 2019年3月1日

相似词查询：玩转腾讯 AI Lab 中文词向量

相似词查询：玩转腾讯 AI Lab 中文词向量

AINLP

11+阅读 · 2019年2月25日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

手把手丨用TensorFlow开发问答系统

手把手丨用TensorFlow开发问答系统

大数据文摘

21+阅读 · 2017年11月29日

面向互联网大数据的用户兴趣挖掘及预测研究

国家自然科学基金

6+阅读 · 2017年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

大数据环境下基于量子计算的非结构化数据关键问题的研究

国家自然科学基金

2+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

When Agents Shop for You: Role Coherence in AI-Mediated Markets

Arxiv

0+阅读 · 4月29日

How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks

Arxiv

0+阅读 · 4月24日

An Alternate Agentic AI Architecture (It's About the Data)

Arxiv

0+阅读 · 4月23日

Information Aggregation with AI Agents

Arxiv

0+阅读 · 4月21日

An AI Agent Execution Environment to Safeguard User Data

Arxiv

0+阅读 · 4月21日

ParseBench: A Document Parsing Benchmark for AI Agents

Arxiv

0+阅读 · 4月9日

Undetectable Conversations Between AI Agents via Pseudorandom Noise-Resilient Key Exchange

Arxiv

0+阅读 · 4月6日

DeepEye: A Steerable Self-driving Data Agent System

Arxiv

0+阅读 · 3月30日

How are AI agents used? Evidence from 177,000 MCP tools

Arxiv

0+阅读 · 3月25日

AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

1+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

1+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

1+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

0+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

4+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

5+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

8+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

《美空军条令出版物：网络空间作战（2026版）》

《美空军条令出版物：网络空间作战（2026版）》

专知会员服务

11+阅读 · 5月8日

《美空军条令出版物：空军作战中的信息（2026版）》

《美空军条令出版物：空军作战中的信息（2026版）》

专知会员服务

13+阅读 · 5月8日

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

专知会员服务

9+阅读 · 5月8日

人工智能如何变革军事C5ISR作战

人工智能如何变革军事C5ISR作战

专知会员服务

12+阅读 · 5月8日

《自主空中加油：用于相对导航与自主对接的双向多目标检测系统》97页

《自主空中加油：用于相对导航与自主对接的双向多目标检测系统》97页

专知会员服务

8+阅读 · 5月8日

相关VIP内容

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

专知会员服务

32+阅读 · 2025年3月27日

中国AI Agent行业研究报告（二）

中国AI Agent行业研究报告（二）

专知会员服务

48+阅读 · 2025年3月13日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

249+阅读 · 2023年9月9日

推荐！《人与AI协作中的可解释人工智能》320页论文

推荐！《人与AI协作中的可解释人工智能》320页论文

专知会员服务

137+阅读 · 2023年7月31日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

76+阅读 · 2023年3月21日

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

专知会员服务

29+阅读 · 2022年2月17日

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

专知会员服务

55+阅读 · 2020年3月8日

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

专知会员服务

84+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

相关资讯

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

新智元

30+阅读 · 2019年3月1日

相似词查询：玩转腾讯 AI Lab 中文词向量

相似词查询：玩转腾讯 AI Lab 中文词向量

AINLP

11+阅读 · 2019年2月25日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

手把手丨用TensorFlow开发问答系统

手把手丨用TensorFlow开发问答系统

大数据文摘

21+阅读 · 2017年11月29日

相关论文

When Agents Shop for You: Role Coherence in AI-Mediated Markets

Arxiv

0+阅读 · 4月29日

How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks

Arxiv

0+阅读 · 4月24日

An Alternate Agentic AI Architecture (It's About the Data)

Arxiv

0+阅读 · 4月23日

Information Aggregation with AI Agents

Arxiv

0+阅读 · 4月21日

An AI Agent Execution Environment to Safeguard User Data

Arxiv

0+阅读 · 4月21日

ParseBench: A Document Parsing Benchmark for AI Agents

Arxiv

0+阅读 · 4月9日

Undetectable Conversations Between AI Agents via Pseudorandom Noise-Resilient Key Exchange

Arxiv

0+阅读 · 4月6日

DeepEye: A Steerable Self-driving Data Agent System

Arxiv

0+阅读 · 3月30日

How are AI agents used? Evidence from 177,000 MCP tools

Arxiv

0+阅读 · 3月25日

AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Arxiv

0+阅读 · 3月19日

相关基金

面向互联网大数据的用户兴趣挖掘及预测研究

国家自然科学基金

6+阅读 · 2017年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

大数据环境下基于量子计算的非结构化数据关键问题的研究

国家自然科学基金

2+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员