FREYJA: Efficient Join Discovery in Data Lakes - 专知论文

会员服务 ·

0

数据湖 · 存储 · 系统 · 表示 · 度量 ·

FREYJA: Efficient Join Discovery in Data Lakes

翻译：FREYJA：数据湖中高效连接发现

Marc Maynou,Sergi Nadal,Raquel Panadero,Javier Flores,Oscar Romero,Anna Queralt

from arxiv, The manuscript was originally accepted for publication in the TKDE journal in January 2026. Since then, we have developed a Python version and further improved its efficiency. Consequently, the tables and plots in Section VI have been updated with the new results

Data lakes are massive repositories of raw and heterogeneous data, designed to meet the requirements of modern data storage. Nonetheless, this same philosophy increases the complexity of performing discovery tasks to find relevant data for subsequent processing. As a response to these growing challenges, we present FREYJA, a modern data discovery system capable of effectively exploring data lakes, aimed at finding candidates to perform joins and increase the number of attributes for downstream tasks. More precisely, we want to compute rankings that sort potential joins by their relevance. Modern mechanisms apply advanced table representation learning (TRL) techniques to yield accurate joins. Yet, this incurs high computational costs when dealing with elevated volumes of data. In contrast to the state-of-the-art, we adopt a novel notion of join quality tailored to data lakes, which leverages syntactic measurements while achieving accuracy comparable to that of TRL approaches. To obtain this metric in a scalable manner we train a general purpose predictive model. Predictions are based, rather than on large-scale datasets, on data profiles, succinct representations that capture the underlying characteristics of the data. Our experiments show that our system, FREYJA, matches the results of the state-of-the-art whilst reducing the execution times by several orders of magnitude.

翻译：数据湖是存储原始异构数据的大规模存储库，旨在满足现代数据存储的需求。然而，这种设计理念增加了数据发现任务的复杂性，使得寻找后续处理所需的相关数据变得困难。为应对这些日益严峻的挑战，我们提出了FREYJA——一个能够有效探索数据湖的现代数据发现系统，旨在寻找可执行连接操作的候选数据集，从而为下游任务增加属性数量。更具体地说，我们希望计算能按相关性排序潜在连接的排名列表。现有先进机制通过应用先进的表表示学习（TRL）技术来生成精确连接，但在处理海量数据时会产生高昂的计算成本。与现有技术不同，我们采用了一种专为数据湖设计的新型连接质量度量方法，该方法利用句法测量指标，同时达到与TRL方法相当的准确性。为以可扩展方式获取该度量值，我们训练了一个通用预测模型。该模型的预测并非基于大规模数据集，而是基于数据画像——即捕捉数据底层特征的简洁表示。实验表明，我们的FREYJA系统在保持与现有先进技术相当结果的同时，将执行时间降低了数个数量级。

0

相关内容

数据湖

数据湖是一个集中存储区，用于存储、处理和保护大量结构化、半结构化和非结构化数据。它可以以原生格式存储数据，并处理任何转换格式，而无需考虑大小限制。

【新书】《使用Python进行数据挖掘：理论、应用与案例研究》

【新书】《使用Python进行数据挖掘：理论、应用与案例研究》

专知会员服务

66+阅读 · 2024年9月10日

数据湖核心能力解析

数据湖核心能力解析

专知会员服务

33+阅读 · 2024年6月12日

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

专知会员服务

56+阅读 · 2022年12月23日

实时数据湖在字节跳动的实践

实时数据湖在字节跳动的实践

专知会员服务

30+阅读 · 2022年5月28日

阿里云发布《中国云原生数据湖应用洞察白皮书》

阿里云发布《中国云原生数据湖应用洞察白皮书》

专知会员服务

43+阅读 · 2022年4月15日

大数据存储技术综述

专知会员服务

18+阅读 · 2020年11月8日

用于大型遥感影像检索的深度学习，Deep Learning for Image Search and Retrieval in Large Remote Sensing Archives

用于大型遥感影像检索的深度学习，Deep Learning for Image Search and Retrieval in Large Remote Sensing Archives

专知会员服务

39+阅读 · 2020年4月6日

【KDD2019|讲座推荐】药物发现与开发的数据挖掘方法：Data Mining Methods for Drug Discovery and Development

【KDD2019|讲座推荐】药物发现与开发的数据挖掘方法：Data Mining Methods for Drug Discovery and Development

专知会员服务

69+阅读 · 2019年12月11日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

98+阅读 · 2019年12月4日

【VLDB2019 tutorial】数据管理：机遇与挑战 Data Lake Management: Challenges and Opportunities，多伦多大学|Fatemeh Nargesian，微软|祝尔康

【VLDB2019 tutorial】数据管理：机遇与挑战 Data Lake Management: Challenges and Opportunities，多伦多大学|Fatemeh Nargesian，微软|祝尔康

专知会员服务

10+阅读 · 2019年8月27日

时空数据挖掘:综述

时空数据挖掘:综述

专知

36+阅读 · 2022年6月30日

【Flink】基于 Flink 的流式数据实时去重

【Flink】基于 Flink 的流式数据实时去重

AINLP

14+阅读 · 2020年9月29日

最佳实践：阿里巴巴数据中台

最佳实践：阿里巴巴数据中台

AliData

26+阅读 · 2019年7月26日

完备的 AI 学习路线，最详细的资源整理！

完备的 AI 学习路线，最详细的资源整理！

新智元

18+阅读 · 2019年5月4日

清华178页深度报告：一文看懂AI数据挖掘

清华178页深度报告：一文看懂AI数据挖掘

人工智能学家

10+阅读 · 2019年2月18日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

不要担心没数据！史上最全数据集网站汇总

不要担心没数据！史上最全数据集网站汇总

数盟

14+阅读 · 2018年4月18日

关于数据挖掘，有几本书推荐给你......

关于数据挖掘，有几本书推荐给你......

图灵教育

16+阅读 · 2017年10月11日

教你用Flink实现超大规模用户行为分析（附代码、视频教程）

教你用Flink实现超大规模用户行为分析（附代码、视频教程）

THU数据派

12+阅读 · 2017年9月29日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下稀有类数据挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于异构信息网络的地理共享数据个性化检索研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模轨迹数据的地理空间关联解译及分析挖掘研究

国家自然科学基金

1+阅读 · 2014年12月31日

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

DataCube: A Video Retrieval Platform via Natural Language Semantic Profiling

Arxiv

0+阅读 · 2月18日

INQUIRE-Search: Interactive Discovery in Large-Scale Biodiversity Databases

Arxiv

0+阅读 · 2月17日

Accelerating Large-Scale Dataset Distillation via Exploration-Exploitation Optimization

Arxiv

0+阅读 · 2月17日

OrbitChain: Orchestrating In-orbit Real-time Analytics of Earth Observation Data

Arxiv

0+阅读 · 2月10日

LakeHopper: Cross Data Lakes Column Type Annotation through Model Adaptation

Arxiv

0+阅读 · 2月9日

Towards Efficient Data Structures for Approximate Search with Range Queries

Arxiv

0+阅读 · 2月6日

LLM-Based Multi-Agent Blackboard System for Information Discovery in Data Science

Arxiv

0+阅读 · 1月31日

Create Benchmarks for Data Lakes

Arxiv

0+阅读 · 1月27日

ReSearch: A Multi-Stage Machine Learning Framework for Earth Science Data Discovery

Arxiv

0+阅读 · 1月20日

Cluster-Dags as Powerful Background Knowledge For Causal Discovery

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

最新内容

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

0+阅读 · 31分钟前

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

10+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

8+阅读 · 7月19日

相关VIP内容

【新书】《使用Python进行数据挖掘：理论、应用与案例研究》

【新书】《使用Python进行数据挖掘：理论、应用与案例研究》

专知会员服务

66+阅读 · 2024年9月10日

数据湖核心能力解析

数据湖核心能力解析

专知会员服务

33+阅读 · 2024年6月12日

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

专知会员服务

56+阅读 · 2022年12月23日

实时数据湖在字节跳动的实践

实时数据湖在字节跳动的实践

专知会员服务

30+阅读 · 2022年5月28日

阿里云发布《中国云原生数据湖应用洞察白皮书》

阿里云发布《中国云原生数据湖应用洞察白皮书》

专知会员服务

43+阅读 · 2022年4月15日

大数据存储技术综述

专知会员服务

18+阅读 · 2020年11月8日

用于大型遥感影像检索的深度学习，Deep Learning for Image Search and Retrieval in Large Remote Sensing Archives

用于大型遥感影像检索的深度学习，Deep Learning for Image Search and Retrieval in Large Remote Sensing Archives

专知会员服务

39+阅读 · 2020年4月6日

【KDD2019|讲座推荐】药物发现与开发的数据挖掘方法：Data Mining Methods for Drug Discovery and Development

【KDD2019|讲座推荐】药物发现与开发的数据挖掘方法：Data Mining Methods for Drug Discovery and Development

专知会员服务

69+阅读 · 2019年12月11日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

98+阅读 · 2019年12月4日

【VLDB2019 tutorial】数据管理：机遇与挑战 Data Lake Management: Challenges and Opportunities，多伦多大学|Fatemeh Nargesian，微软|祝尔康

【VLDB2019 tutorial】数据管理：机遇与挑战 Data Lake Management: Challenges and Opportunities，多伦多大学|Fatemeh Nargesian，微软|祝尔康

专知会员服务

10+阅读 · 2019年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

时空数据挖掘:综述

时空数据挖掘:综述

专知

36+阅读 · 2022年6月30日

【Flink】基于 Flink 的流式数据实时去重

【Flink】基于 Flink 的流式数据实时去重

AINLP

14+阅读 · 2020年9月29日

最佳实践：阿里巴巴数据中台

最佳实践：阿里巴巴数据中台

AliData

26+阅读 · 2019年7月26日

完备的 AI 学习路线，最详细的资源整理！

完备的 AI 学习路线，最详细的资源整理！

新智元

18+阅读 · 2019年5月4日

清华178页深度报告：一文看懂AI数据挖掘

清华178页深度报告：一文看懂AI数据挖掘

人工智能学家

10+阅读 · 2019年2月18日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

不要担心没数据！史上最全数据集网站汇总

不要担心没数据！史上最全数据集网站汇总

数盟

14+阅读 · 2018年4月18日

关于数据挖掘，有几本书推荐给你......

关于数据挖掘，有几本书推荐给你......

图灵教育

16+阅读 · 2017年10月11日

教你用Flink实现超大规模用户行为分析（附代码、视频教程）

教你用Flink实现超大规模用户行为分析（附代码、视频教程）

THU数据派

12+阅读 · 2017年9月29日

相关论文

DataCube: A Video Retrieval Platform via Natural Language Semantic Profiling

Arxiv

0+阅读 · 2月18日

INQUIRE-Search: Interactive Discovery in Large-Scale Biodiversity Databases

Arxiv

0+阅读 · 2月17日

Accelerating Large-Scale Dataset Distillation via Exploration-Exploitation Optimization

Arxiv

0+阅读 · 2月17日

OrbitChain: Orchestrating In-orbit Real-time Analytics of Earth Observation Data

Arxiv

0+阅读 · 2月10日

LakeHopper: Cross Data Lakes Column Type Annotation through Model Adaptation

Arxiv

0+阅读 · 2月9日

Towards Efficient Data Structures for Approximate Search with Range Queries

Arxiv

0+阅读 · 2月6日

LLM-Based Multi-Agent Blackboard System for Information Discovery in Data Science

Arxiv

0+阅读 · 1月31日

Create Benchmarks for Data Lakes

Arxiv

0+阅读 · 1月27日

ReSearch: A Multi-Stage Machine Learning Framework for Earth Science Data Discovery

Arxiv

0+阅读 · 1月20日

Cluster-Dags as Powerful Background Knowledge For Causal Discovery

Arxiv

0+阅读 · 1月19日

相关基金

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下稀有类数据挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于异构信息网络的地理共享数据个性化检索研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模轨迹数据的地理空间关联解译及分析挖掘研究

国家自然科学基金

1+阅读 · 2014年12月31日

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员