Predicting Lakehouse Performance in Clouds: An Empirical Exploration of Query Runtime Variance - 专知论文

会员服务 ·

0

方差 · Performer · 缩放 · 操作 · 回合 ·

Predicting Lakehouse Performance in Clouds: An Empirical Exploration of Query Runtime Variance

翻译：预测云上湖仓性能：查询运行时方差的实证探索

James Nurdin,Wei Liu,Richard Mccreadie,Lauritz Thamsen

from arxiv, 11 pages, 5 figures, to appear in the Proceedings of the 19th IEEE International Conference on Cloud Computing (CLOUD)

Data analytics increasingly runs on distributed lakehouse systems, where platform operators must optimise monetary, resource, and environmental costs. Query Performance Prediction (QPP) helps to balance these costs and supports workload management techniques, such as adaptive resource scaling and low-carbon scheduling. However, runtimes in lakehouses can vary substantially, and the impact of runtime variance on QPP accuracy and workload orchestration has not previously been systematically studied for lakehouse systems. This paper addresses this gap by investigating the runtime variance observed for distributed lakehouse analytical queries and its impact on QPP. First, we quantify the run-to-run variance using Kubernetes deployments across three public clouds and one private cloud, spanning multiple database scales and three analytical benchmarks. Our results demonstrate that repeated executions of the same query can vary in runtime by nearly twofold. Second, we conduct a factor analysis study assessing key sources of this runtime variance such as data locality, co-tenant load, and caching effects. Third, we examine how variance influences state-of-the-art QPP models, revealing that addressing key sources of variance can reduce prediction error up to 80%. Finally, we demonstrate the downstream implications for low-carbon scheduling as an example of a workload management technique that relies on performance prediction, showing that accounting for runtime variance can lead to a significant reduction in carbon costs.

翻译：数据分析越来越多地在分布式湖仓系统上运行，平台运营商必须优化货币、资源和环境成本。查询性能预测（QPP）有助于平衡这些成本，并支持工作负载管理技术，如自适应资源扩缩和低碳调度。然而，湖仓中的运行时可能存在显著差异，而运行时方差对QPP准确性和工作负载编排的影响此前尚未针对湖仓系统进行系统性研究。本文通过调查分布式湖仓分析查询中观察到的运行时方差及其对QPP的影响来填补这一空白。首先，我们使用Kubernetes部署在三个公有云和一个私有云上，跨多个数据库规模和三个分析基准，量化了运行间方差。结果表明，相同查询的重复执行在运行时上可能存在近两倍的差异。其次，我们进行了因子分析研究，评估了这种运行时方差的关键来源，如数据局部性、共租负载和缓存效应。第三，我们检验了方差如何影响最先进的QPP模型，揭示解决关键方差来源可将预测误差降低高达80%。最后，我们以低碳调度为例，展示了其作为依赖性能预测的工作负载管理技术的下游影响，表明考虑运行时方差可显著降低碳成本。

0

相关内容

腾讯大数据实时湖仓智能优化实践

腾讯大数据实时湖仓智能优化实践

专知会员服务

20+阅读 · 2024年9月19日

数据湖核心能力解析

数据湖核心能力解析

专知会员服务

33+阅读 · 2024年6月12日

国防科大最新《时空图神经网络》综述，24页pdf详述其在城市计算预测学习应用进展

国防科大最新《时空图神经网络》综述，24页pdf详述其在城市计算预测学习应用进展

专知会员服务

72+阅读 · 2023年4月3日

实时数据湖在字节跳动的实践

实时数据湖在字节跳动的实践

专知会员服务

30+阅读 · 2022年5月28日

阿里云发布《中国云原生数据湖应用洞察白皮书》

阿里云发布《中国云原生数据湖应用洞察白皮书》

专知会员服务

43+阅读 · 2022年4月15日

【新加破南洋理工】点云的无监督表示学习综述，Unsupervised Representation Learning for Point Clouds: A Survey

【新加破南洋理工】点云的无监督表示学习综述，Unsupervised Representation Learning for Point Clouds: A Survey

专知会员服务

29+阅读 · 2022年3月2日

【AAAI 2022】基于数据分布生成的可预测概念漂移适应

【AAAI 2022】基于数据分布生成的可预测概念漂移适应

专知会员服务

34+阅读 · 2022年1月12日

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

专知会员服务

70+阅读 · 2020年3月25日

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

专知会员服务

42+阅读 · 2020年3月10日

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

专知会员服务

65+阅读 · 2020年3月5日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

专知

10+阅读 · 2022年4月11日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

时间序列预测：一课掌握亚马逊开源算法DeepAR

时间序列预测：一课掌握亚马逊开源算法DeepAR

机器之心

13+阅读 · 2020年6月3日

【综述】交通流量预测，附15页论文下载

【综述】交通流量预测，附15页论文下载

专知

23+阅读 · 2020年4月23日

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

专知

15+阅读 · 2020年3月25日

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

荐文 | 时序预测中的深度学习：以电力负载预测为例

荐文 | 时序预测中的深度学习：以电力负载预测为例

德先生

32+阅读 · 2019年9月18日

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

泡泡机器人SLAM

29+阅读 · 2019年5月29日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

基于Budyko假说及GRACE重力卫星观测对流域水量平衡变化的多时间尺度研究

国家自然科学基金

0+阅读 · 2017年12月31日

异构云小区网络中基于时延保证的资源配置新方法

国家自然科学基金

0+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

云存储系统中节能关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

时空上下文感知的云服务质量预测和推荐的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于2-D空间离散数据的质量与产出的预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

协方差阵的推断及在方向数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于多层多源信息的地区级智能电网短期负荷预测研究

国家自然科学基金

2+阅读 · 2014年12月31日

Quantum-HPC Software Stacks and the openQSE Reference Architecture: A Survey

Arxiv

0+阅读 · 6月15日

Beyond the Training Distribution: Evaluating Predictions Under Distribution Shift and Selection Bias

Arxiv

0+阅读 · 6月12日

CloudCons: A Comprehensive End-to-End Benchmark for Cloud Resource Consolidation

Arxiv

0+阅读 · 6月11日

Data-driven Lake Water Quality Forecasting for Time Series with Missing Data using Machine Learning

Arxiv

0+阅读 · 6月10日

Hierarchical Probabilistic Conformal Prediction for Distributed Energy Resources Adoption

Arxiv

0+阅读 · 6月10日

LakeQA: An Exploratory QA Benchmark over a Million-Scale Data Lake

Arxiv

0+阅读 · 6月9日

A Framework for Evaluating and Benchmarking Concept Drift Detection Methods

Arxiv

0+阅读 · 6月5日

An ensemble prediction method for forecasting sap flux density and water-use in temperate trees

Arxiv

0+阅读 · 5月12日

Lakestream: A Consistent and Brokerless Data Plane for Large Foundation Model Training

Arxiv

0+阅读 · 5月11日

M$^2$FedAQI: Multimodal Federated Learning for Air Quality Prediction on Heterogeneous Edge Devices

Arxiv

0+阅读 · 5月10日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

10+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

8+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

10+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

9+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

12+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

7+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

10+阅读 · 7月31日

相关VIP内容

腾讯大数据实时湖仓智能优化实践

腾讯大数据实时湖仓智能优化实践

专知会员服务

20+阅读 · 2024年9月19日

数据湖核心能力解析

数据湖核心能力解析

专知会员服务

33+阅读 · 2024年6月12日

国防科大最新《时空图神经网络》综述，24页pdf详述其在城市计算预测学习应用进展

国防科大最新《时空图神经网络》综述，24页pdf详述其在城市计算预测学习应用进展

专知会员服务

72+阅读 · 2023年4月3日

实时数据湖在字节跳动的实践

实时数据湖在字节跳动的实践

专知会员服务

30+阅读 · 2022年5月28日

阿里云发布《中国云原生数据湖应用洞察白皮书》

阿里云发布《中国云原生数据湖应用洞察白皮书》

专知会员服务

43+阅读 · 2022年4月15日

【新加破南洋理工】点云的无监督表示学习综述，Unsupervised Representation Learning for Point Clouds: A Survey

【新加破南洋理工】点云的无监督表示学习综述，Unsupervised Representation Learning for Point Clouds: A Survey

专知会员服务

29+阅读 · 2022年3月2日

【AAAI 2022】基于数据分布生成的可预测概念漂移适应

【AAAI 2022】基于数据分布生成的可预测概念漂移适应

专知会员服务

34+阅读 · 2022年1月12日

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

专知会员服务

70+阅读 · 2020年3月25日

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

专知会员服务

42+阅读 · 2020年3月10日

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

专知会员服务

65+阅读 · 2020年3月5日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

专知

10+阅读 · 2022年4月11日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

时间序列预测：一课掌握亚马逊开源算法DeepAR

时间序列预测：一课掌握亚马逊开源算法DeepAR

机器之心

13+阅读 · 2020年6月3日

【综述】交通流量预测，附15页论文下载

【综述】交通流量预测，附15页论文下载

专知

23+阅读 · 2020年4月23日

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

专知

15+阅读 · 2020年3月25日

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

荐文 | 时序预测中的深度学习：以电力负载预测为例

荐文 | 时序预测中的深度学习：以电力负载预测为例

德先生

32+阅读 · 2019年9月18日

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

泡泡机器人SLAM

29+阅读 · 2019年5月29日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

相关论文

Quantum-HPC Software Stacks and the openQSE Reference Architecture: A Survey

Arxiv

0+阅读 · 6月15日

Beyond the Training Distribution: Evaluating Predictions Under Distribution Shift and Selection Bias

Arxiv

0+阅读 · 6月12日

CloudCons: A Comprehensive End-to-End Benchmark for Cloud Resource Consolidation

Arxiv

0+阅读 · 6月11日

Data-driven Lake Water Quality Forecasting for Time Series with Missing Data using Machine Learning

Arxiv

0+阅读 · 6月10日

Hierarchical Probabilistic Conformal Prediction for Distributed Energy Resources Adoption

Arxiv

0+阅读 · 6月10日

LakeQA: An Exploratory QA Benchmark over a Million-Scale Data Lake

Arxiv

0+阅读 · 6月9日

A Framework for Evaluating and Benchmarking Concept Drift Detection Methods

Arxiv

0+阅读 · 6月5日

An ensemble prediction method for forecasting sap flux density and water-use in temperate trees

Arxiv

0+阅读 · 5月12日

Lakestream: A Consistent and Brokerless Data Plane for Large Foundation Model Training

Arxiv

0+阅读 · 5月11日

M$^2$FedAQI: Multimodal Federated Learning for Air Quality Prediction on Heterogeneous Edge Devices

Arxiv

0+阅读 · 5月10日

相关基金

基于Budyko假说及GRACE重力卫星观测对流域水量平衡变化的多时间尺度研究

国家自然科学基金

0+阅读 · 2017年12月31日

异构云小区网络中基于时延保证的资源配置新方法

国家自然科学基金

0+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

云存储系统中节能关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

时空上下文感知的云服务质量预测和推荐的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于2-D空间离散数据的质量与产出的预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

协方差阵的推断及在方向数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于多层多源信息的地区级智能电网短期负荷预测研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员