Graph neural networks (GNNs) have gained significant interest for applications such as citation network analysis and drug discovery due to their ability to apply machine learning techniques on graph-structured data. GNNs typically employ a two-stage execution pipeline consisting of combination and aggregation kernels. The combination stage performs data-intensive convolution operations with relatively regular memory access patterns, whereas the aggregation stage operates on sparse graph data with highly irregular accesses. These heterogeneous memory behaviors make conventional CPU- and GPU-based execution energy inefficient due to substantial data movement overheads. Existing accelerators attempt to mitigate these challenges using specialized architectures and processing-in-memory (PIM) techniques. However, prior approaches often suffer from scalability limitations, area overheads, restricted parallelism, and energy inefficiencies associated with analog compute and dedicated accelerator structures. This paper presents NEM-GNN, a scalable DAC/ADC-less processing-in-memory architecture for graph neural network acceleration. The proposed design introduces early compute termination mechanisms, pre-computation using reconfigurable system-on-chip components, and graph- and sparsity-aware near-memory aggregation using a compute-as-soon-as-ready (CAR) and broadcast-based execution model. Experimental results demonstrate that NEM-GNN achieves approximately 80--230x higher performance, 80--300x higher throughput, 850--1134x better energy efficiency, and 7--8x higher compute density compared to prior state-of-the-art approaches.


翻译:图神经网络(GNN)因其对图结构数据应用机器学习技术的能力,在引文网络分析和药物发现等应用中引起了广泛关注。GNN通常采用两阶段执行流水线,包括组合核和聚合核。组合阶段执行数据密集型卷积运算,具有相对规则的访存模式;而聚合阶段则对高度不规则访问的稀疏图数据进行操作。这些异构的内存行为使得传统的基于CPU和GPU的执行因大量数据移动开销而能效低下。现有加速器尝试通过专用架构和存内处理(PIM)技术缓解这些挑战。然而,先前的方法通常存在可扩展性限制、面积开销、并行性受限以及与模拟计算和专用加速器结构相关的能效低下问题。本文提出了NEM-GNN,一种用于图神经网络加速的可扩展、无需DAC/ADC的存内处理架构。该设计引入了早期计算终止机制、使用可重构片上系统组件的预计算,以及基于“就绪即计算”(CAR)和广播执行模型的图与稀疏感知近存聚合。实验结果表明,与现有最优方法相比,NEM-GNN在性能上提升约80–230倍,吞吐量提升80–300倍,能效改善850–1134倍,计算密度提升7–8倍。

0
下载
关闭预览

相关内容

【ICML2023】图神经网络可以仅从图结构中恢复隐藏特征
专知会员服务
32+阅读 · 2023年4月27日
图神经网络可解释性,附45页ppt,Simone Scardapane讲授
专知会员服务
84+阅读 · 2022年7月16日
【Google AI】鲁棒图神经网络,Robust Graph Neural Networks
专知会员服务
38+阅读 · 2022年3月9日
【图神经网络导论】Intro to Graph Neural Networks,176页ppt
专知会员服务
129+阅读 · 2021年6月4日
专知会员服务
140+阅读 · 2021年3月30日
最新【图神经网络计算】2020综述论文,23页PDF
专知会员服务
193+阅读 · 2020年10月3日
专知会员服务
29+阅读 · 2020年8月8日
【GNN】深度学习之上,图神经网络(GNN )崛起
产业智能官
16+阅读 · 2019年8月15日
图神经网络火了?谈下它的普适性与局限性
机器之心
22+阅读 · 2019年7月29日
掌握图神经网络GNN基本,看这篇文章就够了
新智元
164+阅读 · 2019年2月14日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 5月12日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
【ICML2023】图神经网络可以仅从图结构中恢复隐藏特征
专知会员服务
32+阅读 · 2023年4月27日
图神经网络可解释性,附45页ppt,Simone Scardapane讲授
专知会员服务
84+阅读 · 2022年7月16日
【Google AI】鲁棒图神经网络,Robust Graph Neural Networks
专知会员服务
38+阅读 · 2022年3月9日
【图神经网络导论】Intro to Graph Neural Networks,176页ppt
专知会员服务
129+阅读 · 2021年6月4日
专知会员服务
140+阅读 · 2021年3月30日
最新【图神经网络计算】2020综述论文,23页PDF
专知会员服务
193+阅读 · 2020年10月3日
专知会员服务
29+阅读 · 2020年8月8日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员