The real-time performance of recommender models depends on the continuous integration of massive volumes of new user interaction data into training pipelines. While GPUs have scaled model training throughput, the data preprocessing stage - commonly expressed as Extract-Transform-Load (ETL) pipelines - has emerged as the dominant bottleneck. Production systems often dedicate clusters of CPU servers to support a single GPU node, leading to high operational cost. To address this issue, we present PipeRec, a hardware-accelerated ETL engine co-designed with online recommender model training. PipeRec introduces a training-aware ETL abstraction that exposes freshness, ordering, and batching semantics while compiling software-defined operators into reconfigurable FPGA dataflows and overlaps ETL with GPU training to maximize utilization under I/O constraints. To eliminate CPU bottlenecks, PipeRec implements a format-aware packer that streams training-ready batches directly into GPU memory via P2P DMA transfers, enabling zero-copy ingest and efficient GPU consumption. Our evaluation on three datasets shows that PipeRec accelerates ETL throughput by over 10x compared to CPU-based pipelines and up to 17x over state-of-the-art GPU ETL systems. When integrated with training, PipeRec maintains 64-91% GPU utilization and reduces end-to-end training time to 9.94% of the time taken by CPU-GPU pipelines.


翻译:推荐模型的实时性能取决于海量新用户交互数据在训练流水线中的持续集成。虽然GPU已提升了模型训练的吞吐量,但数据预处理阶段——通常表现为提取-转换-加载(ETL)流水线——已成为主要瓶颈。生产系统通常需要配置多台CPU服务器集群来支持单个GPU节点,导致高昂的运维成本。为解决此问题,我们提出了PipeRec,一种与在线推荐模型训练协同设计的硬件加速ETL引擎。PipeRec引入了一种训练感知的ETL抽象,该抽象在将软件定义的算子编译为可重构FPGA数据流的同时,显式地暴露了数据新鲜度、顺序和批处理语义,并通过ETL与GPU训练的重叠执行,在I/O约束下最大化硬件利用率。为消除CPU瓶颈,PipeRec实现了一种格式感知的打包器,通过点对点(P2P)DMA传输将训练就绪的数据批次直接流式写入GPU内存,从而实现零拷贝数据摄取和高效的GPU数据消费。我们在三个数据集上的评估表明,与基于CPU的流水线相比,PipeRec将ETL吞吐量加速了10倍以上;与最先进的GPU ETL系统相比,加速比最高可达17倍。当与训练过程集成时,PipeRec能维持64-91%的GPU利用率,并将端到端训练时间缩短至CPU-GPU流水线所需时间的9.94%。

0
下载
关闭预览

相关内容

《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
34+阅读 · 2024年8月23日
面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
专知会员服务
23+阅读 · 2021年7月15日
专知会员服务
81+阅读 · 2020年6月20日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
超全总结:神经网络加速之量化模型 | 附带代码
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
超全总结:神经网络加速之量化模型 | 附带代码
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员