FlashMem: Supporting Modern DNN Workloads on Mobile with GPU Memory Hierarchy Optimizations - 专知论文

会员服务 ·

0

内存 · DNN · GPU · 负载 · 移动设备 ·

FlashMem: Supporting Modern DNN Workloads on Mobile with GPU Memory Hierarchy Optimizations

翻译：FlashMem：通过GPU内存层次优化支持移动设备上的现代DNN工作负载

Zhihao Shu,Md Musfiqur Rahman Sanim,Hangyu Zheng,Kunxiong Zhu,Miao Yin,Gagan Agrawal,Wei Niu

The increasing size and complexity of modern deep neural networks (DNNs) pose significant challenges for on-device inference on mobile GPUs, with limited memory and computational resources. Existing DNN acceleration frameworks primarily deploy a weight preloading strategy, where all model parameters are loaded into memory before execution on mobile GPUs. We posit that this approach is not adequate for modern DNN workloads that comprise very large model(s) and possibly execution of several distinct models in succession. In this work, we introduce FlashMem, a memory streaming framework designed to efficiently execute large-scale modern DNNs and multi-DNN workloads while minimizing memory consumption and reducing inference latency. Instead of fully preloading weights, FlashMem statically determines model loading schedules and dynamically streams them on demand, leveraging 2.5D texture memory to minimize data transformations and improve execution efficiency. Experimental results on 11 models demonstrate that FlashMem achieves 2.0x to 8.4x memory reduction and 1.7x to 75.0x speedup compared to existing frameworks, enabling efficient execution of large-scale models and multi-DNN support on resource-constrained mobile GPUs.

翻译：现代深度神经网络（DNN）规模和复杂度的不断增加，对移动GPU上的设备端推理提出了重大挑战，因其内存和计算资源有限。现有的DNN加速框架主要采用权重预加载策略，即在移动GPU上执行前将所有模型参数加载到内存中。我们认为，对于包含极大模型并可能连续执行多个不同模型的现代DNN工作负载，这种方法并不适用。在本工作中，我们提出了FlashMem，这是一个内存流式处理框架，旨在高效执行大规模的现代DNN及多DNN工作负载，同时最小化内存消耗并降低推理延迟。FlashMem并非完全预加载权重，而是静态确定模型加载调度，并根据需求动态流式传输，利用2.5D纹理内存来最小化数据转换并提高执行效率。在11个模型上的实验结果表明，与现有框架相比，FlashMem实现了2.0倍至8.4倍的内存减少和1.7倍至75.0倍的加速，从而能够在资源受限的移动GPU上高效执行大规模模型并支持多DNN。

0

相关内容

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

19+阅读 · 2025年1月7日

【2023新书】针对移动应用的深度强化学习处理器设计,105页pdf

【2023新书】针对移动应用的深度强化学习处理器设计,105页pdf

专知会员服务

42+阅读 · 2023年8月15日

【剑桥大学博士论文】高效神经网络的软硬件协同设计，144页pdf

【剑桥大学博士论文】高效神经网络的软硬件协同设计，144页pdf

专知会员服务

53+阅读 · 2023年2月12日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

专知会员服务

16+阅读 · 2022年3月17日

GNN如何加速？中科院计算所最新《图神经网络加速算法研究》综述论文阐述GNN加速算法体系

GNN如何加速？中科院计算所最新《图神经网络加速算法研究》综述论文阐述GNN加速算法体系

专知会员服务

35+阅读 · 2022年2月11日

清华大学刘云新获MobiSys 2021 最佳论文奖：精准预测深度学习模型在边缘设备上的推理延迟

专知会员服务

33+阅读 · 2021年7月17日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

专知

20+阅读 · 2020年10月5日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

深入浅出「图神经网络GNN」的原理、应用以及前景 (附赠GNN新书鼠年春节福利)

深入浅出「图神经网络GNN」的原理、应用以及前景 (附赠GNN新书鼠年春节福利)

专知

65+阅读 · 2020年1月17日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

Github上热门图深度学习（GraphDL）源码与工业级框架

Github上热门图深度学习（GraphDL）源码与工业级框架

专知

15+阅读 · 2019年3月15日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

面向下一代移动应用的移动云服务关键技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

内容中心无线网络的存储和传输协作机制研究

国家自然科学基金

1+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

SRAM-Based Compute-in-Memory Accelerator for Linear-decay Spiking Neural Networks

Arxiv

0+阅读 · 3月13日

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Arxiv

0+阅读 · 3月4日

PM2Lat: Highly Accurate and Generalized Prediction of DNN Execution Latency on GPUs

Arxiv

0+阅读 · 2月28日

FlashOptim: Optimizers for Memory Efficient Training

Arxiv

0+阅读 · 2月26日

SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference

Arxiv

0+阅读 · 2月25日

Towards Secure and Efficient DNN Accelerators via Hardware-Software Co-Design

Arxiv

0+阅读 · 2月24日

SimulatorCoder: DNN Accelerator Simulator Code Generation and Optimization via Large Language Models

Arxiv

0+阅读 · 2月19日

Accelerating Mobile Inference through Fine-Grained CPU-GPU Co-Execution

Arxiv

0+阅读 · 2月18日

FlashSchNet: Fast and Accurate Coarse-Grained Neural Network Molecular Dynamics

Arxiv

0+阅读 · 2月13日

A 16 nm 1.60TOPS/W High Utilization DNN Accelerator with 3D Spatial Data Reuse and Efficient Shared Memory Access

Arxiv

0+阅读 · 2月11日

VIP会员

文章信息

相关主题

最新内容

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

1+阅读 · 44分钟前

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

2+阅读 · 今天9:19

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

1+阅读 · 今天9:00

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

1+阅读 · 今天8:27

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

0+阅读 · 今天7:57

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

1+阅读 · 今天7:53

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

0+阅读 · 今天7:44

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

4+阅读 · 今天7:04

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

6+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

5+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

3+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

4+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

8+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

5+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

6+阅读 · 今天2:13

相关VIP内容

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

19+阅读 · 2025年1月7日

【2023新书】针对移动应用的深度强化学习处理器设计,105页pdf

【2023新书】针对移动应用的深度强化学习处理器设计,105页pdf

专知会员服务

42+阅读 · 2023年8月15日

【剑桥大学博士论文】高效神经网络的软硬件协同设计，144页pdf

【剑桥大学博士论文】高效神经网络的软硬件协同设计，144页pdf

专知会员服务

53+阅读 · 2023年2月12日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

专知会员服务

16+阅读 · 2022年3月17日

GNN如何加速？中科院计算所最新《图神经网络加速算法研究》综述论文阐述GNN加速算法体系

GNN如何加速？中科院计算所最新《图神经网络加速算法研究》综述论文阐述GNN加速算法体系

专知会员服务

35+阅读 · 2022年2月11日

清华大学刘云新获MobiSys 2021 最佳论文奖：精准预测深度学习模型在边缘设备上的推理延迟

专知会员服务

33+阅读 · 2021年7月17日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

电子战革命：塑造战场的十年突破（2015–2025）

《基于模型的系统工程框架及其在电子战系统中的应用》

伊朗战争停火期间美军关键弹药状况分析

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

相关资讯

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

专知

20+阅读 · 2020年10月5日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

深入浅出「图神经网络GNN」的原理、应用以及前景 (附赠GNN新书鼠年春节福利)

深入浅出「图神经网络GNN」的原理、应用以及前景 (附赠GNN新书鼠年春节福利)

专知

65+阅读 · 2020年1月17日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

Github上热门图深度学习（GraphDL）源码与工业级框架

Github上热门图深度学习（GraphDL）源码与工业级框架

专知

15+阅读 · 2019年3月15日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

相关论文

SRAM-Based Compute-in-Memory Accelerator for Linear-decay Spiking Neural Networks

Arxiv

0+阅读 · 3月13日

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Arxiv

0+阅读 · 3月4日

PM2Lat: Highly Accurate and Generalized Prediction of DNN Execution Latency on GPUs

Arxiv

0+阅读 · 2月28日

FlashOptim: Optimizers for Memory Efficient Training

Arxiv

0+阅读 · 2月26日

SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference

Arxiv

0+阅读 · 2月25日

Towards Secure and Efficient DNN Accelerators via Hardware-Software Co-Design

Arxiv

0+阅读 · 2月24日

SimulatorCoder: DNN Accelerator Simulator Code Generation and Optimization via Large Language Models

Arxiv

0+阅读 · 2月19日

Accelerating Mobile Inference through Fine-Grained CPU-GPU Co-Execution

Arxiv

0+阅读 · 2月18日

FlashSchNet: Fast and Accurate Coarse-Grained Neural Network Molecular Dynamics

Arxiv

0+阅读 · 2月13日

A 16 nm 1.60TOPS/W High Utilization DNN Accelerator with 3D Spatial Data Reuse and Efficient Shared Memory Access

Arxiv

0+阅读 · 2月11日

相关基金

面向下一代移动应用的移动云服务关键技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

内容中心无线网络的存储和传输协作机制研究

国家自然科学基金

1+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员