Data lakes have emerged as a flexible and scalable solution for storing and analyzing large volumes of heterogeneous data, including structured, semi-structured, and unstructured formats. Despite their growing adoption in both industry and academia, there is a lack of standardized and comprehensive benchmarks for evaluating the performance of data lake systems. Existing benchmarks primarily target traditional data warehouses and focus on structured SQL workloads, making them insufficient for capturing the diverse workloads and access patterns typical of data lakes. In this work, we propose a new benchmarking framework for data lakes that aims to provide an objective and comparative evaluation of different data lake implementations. Our benchmark covers multiple data types and workload models, including data retrieval, aggregation, querying, and similarity search, which is a common yet underexplored operation in existing benchmarks. We measure key performance metrics such as query execution time, metadata generation time, and metadata size across different scale factors. The benchmark is designed to be extensible and reproducible, enabling users to generate datasets and evaluate data lake systems under realistic and diverse scenarios. We conduct our experiments on CloudLab and demonstrate how the proposed benchmark can be used to compare both commercial and open-source data lake platforms.


翻译:数据湖已成为一种灵活且可扩展的解决方案,用于存储和分析包括结构化、半结构化和非结构化格式在内的大规模异构数据。尽管数据湖在工业界和学术界日益普及,但目前仍缺乏用于评估数据湖系统性能的标准化、综合性基准测试。现有基准测试主要针对传统数据仓库,并侧重于结构化SQL工作负载,这使其不足以捕捉数据湖典型的多类工作负载和访问模式。在本研究中,我们提出了一种新的数据湖基准测试框架,旨在为不同数据湖实现提供客观且可比较的评估。我们的基准测试涵盖多种数据类型和工作负载模型,包括数据检索、聚合、查询和相似性搜索——后者是现有基准测试中常见但尚未充分探索的操作。我们测量了不同规模因子下的关键性能指标,如查询执行时间、元数据生成时间和元数据大小。该基准测试被设计为可扩展和可复现的,使用户能够在现实且多样的场景下生成数据集并评估数据湖系统。我们在CloudLab上进行了实验,并展示了如何使用所提出的基准测试来比较商业和开源数据湖平台。

0
下载
关闭预览

相关内容

腾讯大数据实时湖仓智能优化实践
专知会员服务
20+阅读 · 2024年9月19日
数据湖核心能力解析
专知会员服务
33+阅读 · 2024年6月12日
实时数据湖在字节跳动的实践
专知会员服务
30+阅读 · 2022年5月28日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
43+阅读 · 2022年4月15日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
如何做数据治理?
智能交通技术
19+阅读 · 2019年4月20日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
不要担心没数据!史上最全数据集网站汇总
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 2月13日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员