Data lakes spend a significant fraction of query execution time on scanning data from remote storage. Decoding alone accounts for 46% of runtime when running TPC-H directly on Parquet files. To address this bottleneck, we propose a vision for a data processing SmartNIC for the cloud that sits on the network datapath of compute nodes to offload decoding and pushed-down operators, effectively hiding the cost of querying raw files. Our experimental estimations with DuckDB suggest that by operating directly on pre-filtered data as delivered by a SmartNIC, significantly smaller CPUs can still match query throughput of traditional setups.


翻译:数据湖在查询执行过程中花费大量时间从远程存储扫描数据。直接在Parquet文件上运行TPC-H时,仅解码操作就占运行时长的46%。为应对此瓶颈,我们提出一种面向云环境的数据处理智能网卡愿景:该网卡部署于计算节点的网络数据路径上,用以卸载解码操作及下推算子,从而有效隐藏查询原始文件的成本。基于DuckDB的实验评估表明,通过直接处理智能网卡传输的预过滤数据,显著更小的CPU仍能达到传统架构的查询吞吐量。

0
下载
关闭预览

相关内容

《EphemeriShield:防御网络型反卫星武器》
专知会员服务
15+阅读 · 2025年11月27日
腾讯大数据实时湖仓智能优化实践
专知会员服务
20+阅读 · 2024年9月19日
数据湖核心能力解析
专知会员服务
33+阅读 · 2024年6月12日
实时数据湖在字节跳动的实践
专知会员服务
30+阅读 · 2022年5月28日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
43+阅读 · 2022年4月15日
我是如何寻找数据集的,一些个人私藏
极市平台
10+阅读 · 2021年12月17日
深度学习「CV」学习实践指南!
专知
10+阅读 · 2020年6月21日
【泡泡点云时空】Potree:基于Web浏览器的大规模点云渲染
自然语言处理 | 使用Spacy 进行自然语言处理(二)
机器学习和数学
10+阅读 · 2018年8月27日
如何访问"暗网"(慎入)
黑白之道
145+阅读 · 2018年6月14日
一次 PyTorch 的踩坑经历,以及如何避免梯度成为NaN
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月19日
Arxiv
0+阅读 · 3月18日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
3+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关资讯
我是如何寻找数据集的,一些个人私藏
极市平台
10+阅读 · 2021年12月17日
深度学习「CV」学习实践指南!
专知
10+阅读 · 2020年6月21日
【泡泡点云时空】Potree:基于Web浏览器的大规模点云渲染
自然语言处理 | 使用Spacy 进行自然语言处理(二)
机器学习和数学
10+阅读 · 2018年8月27日
如何访问"暗网"(慎入)
黑白之道
145+阅读 · 2018年6月14日
一次 PyTorch 的踩坑经历,以及如何避免梯度成为NaN
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员