This paper presents a detailed comparative analysis of the performance of three major Python data manipulation libraries - Pandas, Polars, and Dask - specifically when embedded within complete deep learning (DL) training and inference pipelines. The research bridges a gap in existing literature by studying how these libraries interact with substantial GPU workloads during critical phases like data loading, preprocessing, and batch feeding. The authors measured key performance indicators including runtime, memory usage, disk usage, and energy consumption (both CPU and GPU) across various machine learning models and datasets.


翻译:本文针对三种主流Python数据操作库——Pandas、Polars和Dask——在完整深度学习训练与推理流程中的性能表现进行了详细的比较分析。该研究通过考察这些库在数据加载、预处理和批次供给等关键阶段如何与大规模GPU计算负载交互,填补了现有文献的空白。作者测量了多种机器学习模型和数据集下的关键性能指标,包括运行时间、内存使用量、磁盘使用量以及能耗(涵盖CPU与GPU)。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
Transformers 出现以来关系抽取任务的系统综述
专知会员服务
28+阅读 · 2025年11月8日
专知会员服务
157+阅读 · 2021年8月26日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
28+阅读 · 2018年12月4日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
最新内容
探秘Palantir:驱动美情报的科技巨头
专知会员服务
0+阅读 · 32分钟前
《美国海军军事海运司令部 2026年手册》
专知会员服务
0+阅读 · 41分钟前
《人工智能使能系统可靠性框架》
专知会员服务
1+阅读 · 今天2:28
2026“人工智能+”行业发展蓝皮书(附下载)
专知会员服务
10+阅读 · 4月26日
《强化学习数学基础》
专知会员服务
7+阅读 · 4月26日
“Maven计划”的发展演变之“Maven智能系统”应用
相关VIP内容
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
Transformers 出现以来关系抽取任务的系统综述
专知会员服务
28+阅读 · 2025年11月8日
专知会员服务
157+阅读 · 2021年8月26日
相关基金
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员