During research, domain experts often ask analytical questions whose answers require integrating data from a wide range of web sources. Thus, they must spend substantial effort searching, extracting, and organizing raw data before analysis can begin. We formalize this process as the SODIUM task, where we conceptualize open domains such as the web as latent databases that must be systematically instantiated to support downstream querying. Solving SODIUM requires (1) conducting in-depth and specialized exploration of the open web, which is further strengthened by (2) exploiting structural correlations for systematic information extraction and (3) integrating collected information into coherent, queryable database instances. To quantify the challenges in automating SODIUM, we construct SODIUM-Bench, a benchmark of 105 tasks derived from published academic papers across 6 domains, where systems are tasked with exploring the open web to collect and aggregate data from diverse sources into structured tables. Existing systems struggle with SODIUM tasks: we evaluate 6 advanced AI agents on SODIUM-Bench, with the strongest baseline achieving only 46.5% accuracy. To bridge this gap, we develop SODIUM-Agent, a multi-agent system composed of a web explorer and a cache manager. Powered by our proposed ATP-BFS algorithm and optimized through principled management of cached sources and navigation paths, SODIUM-Agent conducts deep and comprehensive web exploration and performs structurally coherent information extraction. SODIUM-Agent achieves 91.1% accuracy on SODIUM-Bench, outperforming the strongest baseline by approximately 2 times and the weakest by up to 73 times.


翻译:在研究过程中,领域专家经常需要回答分析性问题,而答案通常需要整合来自多种网页来源的数据。因此,在分析开始前,他们必须投入大量精力进行搜索、提取和组织原始数据。我们将这一过程形式化为SODIUM任务,将网页等开放领域概念化为潜在的数据库,这些数据库需要被系统地实例化以支持后续查询。解决SODIUM需要:(1) 对开放网页进行深入且专门的探索,并通过(2) 利用结构相关性进行系统化信息提取,以及(3) 将收集的信息整合为连贯、可查询的数据库实例来进一步强化。为了量化自动化SODIUM的挑战,我们构建了SODIUM-Bench,这是一个包含105个任务的基准测试,这些任务源自已发表的跨6个领域的学术论文,要求系统探索开放网页,从不同来源收集并汇总数据到结构化表格中。现有系统在SODIUM任务上表现不佳:我们在SODIUM-Bench上评估了6个先进的AI智能体,最强基线仅达到46.5%的准确率。为弥补这一差距,我们开发了SODIUM-Agent,这是一个由网页探索器和缓存管理器组成的多智能体系统。通过我们提出的ATP-BFS算法驱动,并通过对缓存来源和导航路径的原则性管理进行优化,SODIUM-Agent能够进行深入且全面的网页探索,并执行结构连贯的信息提取。SODIUM-Agent在SODIUM-Bench上达到了91.1%的准确率,比最强基线高出大约2倍,比最弱基线高出最多73倍。

0
下载
关闭预览

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
《搜索型数据库白皮书》正式发布, 45页pdf
专知会员服务
34+阅读 · 2024年7月19日
【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
19+阅读 · 2021年9月17日
【干货书】大数据小摘要,272页pdf,剑桥大学出版社
专知会员服务
42+阅读 · 2021年7月6日
【2020新书】数据结构与数据表示指南,112页pdf
专知会员服务
84+阅读 · 2020年10月6日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
105+阅读 · 2020年3月22日
【干货书】数据科学手册,456页pdf
专知
15+阅读 · 2021年4月28日
DataFun,就这?!
DataFunTalk
38+阅读 · 2020年9月27日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
不要担心没数据!史上最全数据集网站汇总
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月22日
Arxiv
0+阅读 · 3月30日
Arxiv
0+阅读 · 3月20日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
【干货书】数据科学手册,456页pdf
专知
15+阅读 · 2021年4月28日
DataFun,就这?!
DataFunTalk
38+阅读 · 2020年9月27日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
不要担心没数据!史上最全数据集网站汇总
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员