Avoiding redundancy in query results has been extensively studied in relational databases and information retrieval, yet its implications for data lakes remain largely unexplored. We bridge this gap by investigating how to discover unionable tables that contribute new information for a given query table in large-scale data lakes. We formally define Novel Table Search (NTS) as the problem of finding tables that are novel with respect to a given query table and identify two desirable properties that any scoring function for NTS should satisfy. We introduce a concrete scoring mechanism designed to maximize syntactic novelty, prove that it satisfies the proposed properties, and show that the associated optimization problem is NP-hard. To address this challenge, we develop an efficient approximation technique based on penalization, i.e., Attribute-Based Novel Table Search (ANTs). We propose three additional NTS variants to achieve syntactic novelty and introduce two evaluation metrics for syntactic novelty. Through extensive experiments, we demonstrate that ANTs outperforms other methods in capturing syntactic novelty across evaluation metrics and various benchmarks, while also achieving the lowest execution time.


翻译:在关系型数据库和信息检索领域,避免查询结果冗余已得到广泛研究,但其对数据湖的影响在很大程度上仍未得到探索。我们通过研究如何在大规模数据湖中发现能为给定查询表提供新信息的可并表,来弥合这一差距。我们正式将新型表搜索(NTS)定义为寻找相对于给定查询表具有新颖性的表的问题,并识别了任何NTS评分函数都应满足的两个理想属性。我们引入了一种旨在最大化语法新颖性的具体评分机制,证明其满足所提出的属性,并表明相关的优化问题是NP难的。为应对这一挑战,我们开发了一种基于惩罚的高效近似技术,即基于属性的新型表搜索(ANTs)。我们提出了另外三种NTS变体以实现语法新颖性,并引入了两种用于评估语法新颖性的指标。通过大量实验,我们证明ANTs在捕获跨评估指标和各种基准测试的语法新颖性方面优于其他方法,同时实现了最低的执行时间。

0
下载
关闭预览

相关内容

【博士论文】半结构化表格数据上的信息检索
专知会员服务
24+阅读 · 2025年9月7日
表格识别技术研究进展
专知会员服务
38+阅读 · 2022年7月4日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
13+阅读 · 2019年5月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
A Picture of Agentic Search
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 2月12日
VIP会员
最新内容
技术、多域威慑与海上战争(报告)
专知会员服务
6+阅读 · 4月13日
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
3+阅读 · 4月13日
人工智能及其在海军行动中的整合(综述)
专知会员服务
3+阅读 · 4月13日
美军MAVEN项目全面解析:算法战架构
专知会员服务
16+阅读 · 4月13日
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
11+阅读 · 4月13日
相关VIP内容
【博士论文】半结构化表格数据上的信息检索
专知会员服务
24+阅读 · 2025年9月7日
表格识别技术研究进展
专知会员服务
38+阅读 · 2022年7月4日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员