Create Benchmarks for Data Lakes - 专知论文

会员服务 ·

0

基准 · 基准测试 · 数据湖 · 结构 · 结构化 ·

Create Benchmarks for Data Lakes

翻译：为数据湖创建基准测试

Yi Lyu,Pei-Chieh Lo,Natan Lidukhover

Data lakes have emerged as a flexible and scalable solution for storing and analyzing large volumes of heterogeneous data, including structured, semi-structured, and unstructured formats. Despite their growing adoption in both industry and academia, there is a lack of standardized and comprehensive benchmarks for evaluating the performance of data lake systems. Existing benchmarks primarily target traditional data warehouses and focus on structured SQL workloads, making them insufficient for capturing the diverse workloads and access patterns typical of data lakes. In this work, we propose a new benchmarking framework for data lakes that aims to provide an objective and comparative evaluation of different data lake implementations. Our benchmark covers multiple data types and workload models, including data retrieval, aggregation, querying, and similarity search, which is a common yet underexplored operation in existing benchmarks. We measure key performance metrics such as query execution time, metadata generation time, and metadata size across different scale factors. The benchmark is designed to be extensible and reproducible, enabling users to generate datasets and evaluate data lake systems under realistic and diverse scenarios. We conduct our experiments on CloudLab and demonstrate how the proposed benchmark can be used to compare both commercial and open-source data lake platforms.

翻译：数据湖已成为一种灵活且可扩展的解决方案，用于存储和分析包括结构化、半结构化和非结构化格式在内的大规模异构数据。尽管数据湖在工业界和学术界日益普及，但目前仍缺乏用于评估数据湖系统性能的标准化、综合性基准测试。现有基准测试主要针对传统数据仓库，并侧重于结构化SQL工作负载，这使其不足以捕捉数据湖典型的多类工作负载和访问模式。在本研究中，我们提出了一种新的数据湖基准测试框架，旨在为不同数据湖实现提供客观且可比较的评估。我们的基准测试涵盖多种数据类型和工作负载模型，包括数据检索、聚合、查询和相似性搜索——后者是现有基准测试中常见但尚未充分探索的操作。我们测量了不同规模因子下的关键性能指标，如查询执行时间、元数据生成时间和元数据大小。该基准测试被设计为可扩展和可复现的，使用户能够在现实且多样的场景下生成数据集并评估数据湖系统。我们在CloudLab上进行了实验，并展示了如何使用所提出的基准测试来比较商业和开源数据湖平台。

0

相关内容

腾讯大数据实时湖仓智能优化实践

腾讯大数据实时湖仓智能优化实践

专知会员服务

20+阅读 · 2024年9月19日

数据湖核心能力解析

数据湖核心能力解析

专知会员服务

33+阅读 · 2024年6月12日

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

专知会员服务

55+阅读 · 2022年12月23日

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知会员服务

42+阅读 · 2022年9月9日

实时数据湖在字节跳动的实践

实时数据湖在字节跳动的实践

专知会员服务

30+阅读 · 2022年5月28日

阿里云发布《中国云原生数据湖应用洞察白皮书》

阿里云发布《中国云原生数据湖应用洞察白皮书》

专知会员服务

43+阅读 · 2022年4月15日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

【VLDB2019 tutorial】数据管理：机遇与挑战 Data Lake Management: Challenges and Opportunities，多伦多大学|Fatemeh Nargesian，微软|祝尔康

【VLDB2019 tutorial】数据管理：机遇与挑战 Data Lake Management: Challenges and Opportunities，多伦多大学|Fatemeh Nargesian，微软|祝尔康

专知会员服务

10+阅读 · 2019年8月27日

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

知识图谱如何落地？Neo4j这本《知识图谱:数据业务应用》书为你讲述如何构建和使用知识图谱，87页pdf

知识图谱如何落地？Neo4j这本《知识图谱:数据业务应用》书为你讲述如何构建和使用知识图谱，87页pdf

专知

28+阅读 · 2022年2月18日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

如何做数据治理？

如何做数据治理？

智能交通技术

19+阅读 · 2019年4月20日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

不要担心没数据！史上最全数据集网站汇总

不要担心没数据！史上最全数据集网站汇总

数盟

14+阅读 · 2018年4月18日

关于数据挖掘，有几本书推荐给你......

关于数据挖掘，有几本书推荐给你......

图灵教育

16+阅读 · 2017年10月11日

大块板状样品中子核数据宏观基准检验研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

深部盐穴储气库密闭性评价基础研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

Easy Data Unlearning Bench

Arxiv

0+阅读 · 2月18日

Benchmarking AI Performance on End-to-End Data Science Projects

Arxiv

0+阅读 · 2月15日

Benchmarking quantum computers

Arxiv

0+阅读 · 2月13日

Building a Correct-by-Design Lakehouse. Data Contracts, Versioning, and Transactional Pipelines for Humans and Agents

Arxiv

0+阅读 · 2月10日

LakeHopper: Cross Data Lakes Column Type Annotation through Model Adaptation

Arxiv

0+阅读 · 2月9日

WritePolicyBench: Benchmarking Memory Write Policies under Byte Budgets

Arxiv

0+阅读 · 1月31日

Benchmarking Foundation Models for Mitotic Figure Classification

Arxiv

0+阅读 · 1月30日

FREYJA: Efficient Join Discovery in Data Lakes

Arxiv

0+阅读 · 1月22日

A benchmarking framework for PON-based fronthaul network design

Arxiv

0+阅读 · 1月20日

Benchmarking AI scientists for omics data driven biological discovery

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

最新内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

3+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

4+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

2+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

1+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

3+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

2+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

2+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

13+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

相关VIP内容

腾讯大数据实时湖仓智能优化实践

腾讯大数据实时湖仓智能优化实践

专知会员服务

20+阅读 · 2024年9月19日

数据湖核心能力解析

数据湖核心能力解析

专知会员服务

33+阅读 · 2024年6月12日

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

专知会员服务

55+阅读 · 2022年12月23日

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知会员服务

42+阅读 · 2022年9月9日

实时数据湖在字节跳动的实践

实时数据湖在字节跳动的实践

专知会员服务

30+阅读 · 2022年5月28日

阿里云发布《中国云原生数据湖应用洞察白皮书》

阿里云发布《中国云原生数据湖应用洞察白皮书》

专知会员服务

43+阅读 · 2022年4月15日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

【VLDB2019 tutorial】数据管理：机遇与挑战 Data Lake Management: Challenges and Opportunities，多伦多大学|Fatemeh Nargesian，微软|祝尔康

【VLDB2019 tutorial】数据管理：机遇与挑战 Data Lake Management: Challenges and Opportunities，多伦多大学|Fatemeh Nargesian，微软|祝尔康

专知会员服务

10+阅读 · 2019年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

相关资讯

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

知识图谱如何落地？Neo4j这本《知识图谱:数据业务应用》书为你讲述如何构建和使用知识图谱，87页pdf

知识图谱如何落地？Neo4j这本《知识图谱:数据业务应用》书为你讲述如何构建和使用知识图谱，87页pdf

专知

28+阅读 · 2022年2月18日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

如何做数据治理？

如何做数据治理？

智能交通技术

19+阅读 · 2019年4月20日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

不要担心没数据！史上最全数据集网站汇总

不要担心没数据！史上最全数据集网站汇总

数盟

14+阅读 · 2018年4月18日

关于数据挖掘，有几本书推荐给你......

关于数据挖掘，有几本书推荐给你......

图灵教育

16+阅读 · 2017年10月11日

相关论文

Easy Data Unlearning Bench

Arxiv

0+阅读 · 2月18日

Benchmarking AI Performance on End-to-End Data Science Projects

Arxiv

0+阅读 · 2月15日

Benchmarking quantum computers

Arxiv

0+阅读 · 2月13日

Building a Correct-by-Design Lakehouse. Data Contracts, Versioning, and Transactional Pipelines for Humans and Agents

Arxiv

0+阅读 · 2月10日

LakeHopper: Cross Data Lakes Column Type Annotation through Model Adaptation

Arxiv

0+阅读 · 2月9日

WritePolicyBench: Benchmarking Memory Write Policies under Byte Budgets

Arxiv

0+阅读 · 1月31日

Benchmarking Foundation Models for Mitotic Figure Classification

Arxiv

0+阅读 · 1月30日

FREYJA: Efficient Join Discovery in Data Lakes

Arxiv

0+阅读 · 1月22日

A benchmarking framework for PON-based fronthaul network design

Arxiv

0+阅读 · 1月20日

Benchmarking AI scientists for omics data driven biological discovery

Arxiv

0+阅读 · 1月18日

相关基金

大块板状样品中子核数据宏观基准检验研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

深部盐穴储气库密闭性评价基础研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员