The growing demand for data-driven decision-making has created an urgent need for data agents that can reason over heterogeneous data (databases, documents, web content, images, videos, and audio) to answer complex analytical queries. However, evaluating such agents remains challenging: existing benchmarks often focus on isolated agent capabilities or limited data modalities, lacking comprehensive coverage of heterogeneous data and rigorous evaluation across diverse data agent architectures. To address these challenges, we present FDABench, a benchmark for evaluating data agents' reasoning ability over heterogeneous data in analytical scenarios. Our contributions are threefold: (1) A comprehensive benchmark of 2,007 tasks spanning six data modalities with a unified, multi-granularity evaluation framework. (2) We design PUDDING, an agentic dataset construction framework that leverages LLM generation with iterative expert validation for reliable and scalable benchmark construction. (3) Extensive experiments across diverse data agent architectures, including general analytical agents, semantic operator frameworks, and RAG-based methods, revealing key insights and guidelines for future data agent development. Our data and source code are released at https://github.com/fdabench/FDAbench.


翻译:数据驱动决策需求的不断增长,迫切需要能够对异构数据(数据库、文档、网页内容、图像、视频和音频)进行推理以回答复杂分析查询的数据代理。然而,评估此类代理仍面临挑战:现有基准测试通常聚焦于孤立的代理能力或有限的数据模态,缺乏对异构数据的全面覆盖以及跨多样化数据代理架构的严格评估。为解决这些问题,我们提出了FDABench,一个用于评估数据代理在分析场景中对异构数据推理能力的基准测试。我们的贡献体现在三个方面:(1) 一个包含2007个任务、覆盖六种数据模态的综合基准测试,并配备统一的多粒度评估框架;(2) 设计了PUDDING,一种基于大语言模型生成与迭代专家验证的代理数据集构建框架,可实现可靠且可扩展的基准测试构建;(3) 跨多种数据代理架构(包括通用分析代理、语义算子框架及基于检索增强生成的方法)的大量实验,揭示了未来数据代理发展的关键洞察与指导原则。我们的数据和源代码已发布于https://github.com/fdabench/FDAbench。

0
下载
关闭预览

相关内容

利用表示学习推动多机构电子健康记录数据研究
专知会员服务
16+阅读 · 2025年2月17日
【MIT博士论文】异构医疗数据表示学习,193页pdf
专知会员服务
61+阅读 · 2022年9月3日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
86+阅读 · 2020年4月23日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
如何做数据治理?
智能交通技术
19+阅读 · 2019年4月20日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 32分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
1+阅读 · 49分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
利用表示学习推动多机构电子健康记录数据研究
专知会员服务
16+阅读 · 2025年2月17日
【MIT博士论文】异构医疗数据表示学习,193页pdf
专知会员服务
61+阅读 · 2022年9月3日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
86+阅读 · 2020年4月23日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员