LSM-tree-based data stores are widely adopted in industries for their excellent performance. As data scales increase, disk-based join operations become indispensable yet costly for the database, making the selection of suitable join methods crucial for system optimization. Current LSM-based stores generally adhere to conventional relational database practices and support only a limited number of join methods. However, the LSM-tree delivers distinct read and write efficiency compared to the relational databases, which could accordingly impact the performance of various join methods. Therefore, it is necessary to reconsider the selection of join methods in this context to fully explore the potential of various join algorithms and index designs. In this work, we present a systematic study and an exhaustive benchmark for joins over LSM-trees. We define a configuration space for join methods, encompassing various join algorithms, secondary index types, and consistency strategies. We also summarize a theoretical analysis to evaluate the overhead of each join method for an in-depth understanding. Furthermore, we implement all join methods in the configuration space on a unified platform and compare their performance through extensive experiments. Our theoretical and experimental results yield several insights and takeaways tailored to joins in LSM-based stores that aid developers in choosing proper join methods based on their working conditions.


翻译:基于LSM-tree的数据存储因其卓越性能在工业界得到广泛应用。随着数据规模的增长,基于磁盘的连接操作对数据库而言变得不可或缺但代价高昂,因此选择合适的连接方法对系统优化至关重要。当前基于LSM的存储系统通常遵循传统关系型数据库的实践,仅支持有限数量的连接方法。然而,与关系型数据库相比,LSM-tree具有独特的读写效率特性,这可能相应地影响各类连接方法的性能。因此,有必要在此背景下重新审视连接方法的选择,以充分挖掘不同连接算法与索引设计的潜力。本研究对LSM-tree上的连接操作进行了系统性研究并建立了详尽的基准测试框架。我们定义了连接方法的配置空间,涵盖多种连接算法、二级索引类型和一致性策略。同时,我们通过理论分析总结了评估各连接方法开销的框架,以深入理解其性能特征。此外,我们在统一平台上实现了配置空间中的所有连接方法,并通过大量实验比较了它们的性能。我们的理论与实验结果为基于LSM的存储系统提供了若干针对连接操作的洞见与建议,可帮助开发者根据实际工作负载选择适宜的连接方法。

0
下载
关闭预览

相关内容

军用数据链:武器装备神经,联合作战基石,31页pdf
专知会员服务
62+阅读 · 2024年11月21日
大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
基于MySQL Binlog的Elasticsearch数据同步实践
DBAplus社群
15+阅读 · 2019年9月3日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
动态可视化指南:一步步拆解LSTM和GRU
论智
17+阅读 · 2018年10月25日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
阿里流行音乐趋势预测-深度学习LSTM网络实现代码分享
机器学习研究会
11+阅读 · 2017年12月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月2日
VIP会员
最新内容
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
5+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
7+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
13+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关VIP内容
军用数据链:武器装备神经,联合作战基石,31页pdf
专知会员服务
62+阅读 · 2024年11月21日
大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
相关资讯
基于MySQL Binlog的Elasticsearch数据同步实践
DBAplus社群
15+阅读 · 2019年9月3日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
动态可视化指南:一步步拆解LSTM和GRU
论智
17+阅读 · 2018年10月25日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
阿里流行音乐趋势预测-深度学习LSTM网络实现代码分享
机器学习研究会
11+阅读 · 2017年12月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员