GenDRAM:Hardware-Software Co-Design of General Platform in DRAM - 专知论文

会员服务 ·

0

软件 · 软件协同 · 协同 · 比对 · 内存 ·

GenDRAM:Hardware-Software Co-Design of General Platform in DRAM

翻译：GenDRAM：通用平台在DRAM中的硬件-软件协同设计

Tsung-Han Lu,Weihong Xu,Tajana Rosing

Dynamic programming (DP) algorithms, such as All-Pairs Shortest Path (APSP) and genomic sequence alignment, are fundamental to many scientific domains but are severely bottlenecked by data movement on conventional architectures. While Processing-in-Memory (PIM) offers a promising solution, existing accelerators often address only a fraction of the work-flow, creating new system-level bottlenecks in host-accelerator communication and off-chip data streaming. In this work, we propose GenDRAM, a massively parallel PIM accelerator that overcomes these limitations. GenDRAM leverages the immense capacity and internal bandwidth of monolithic 3D DRAM(M3D DRAM) to integrate entire data-intensive pipelines, such as the full genomics workflow from seeding to alignment, onto a single heterogeneous chip. At its core is a novel architecture featuring specialized Search PUs for memory-intensive tasks and universal, multiplier-less Compute PUs for diverse DP calculations. This is enabled by a 3D-aware data mapping strategy that exploits the tiered latency of M3D DRAM for performance optimization. Through comprehensive simulation, we demonstrate that GenDRAM achieves a transformative performance leap, outperforming state-of-the-art GPU systems by over 68x on APSP and over 22x on the end-to-end genomics pipeline.

翻译：动态规划（DP）算法，如全对最短路径（APSP）和基因组序列比对，是许多科学领域的基础，但在传统架构上受到数据移动的严重瓶颈制约。虽然内存处理（PIM）提供了一种有前景的解决方案，但现有加速器通常仅针对工作流的一部分进行优化，从而在主机-加速器通信和片外数据流中引入了新的系统级瓶颈。在本工作中，我们提出了GenDRAM，一种大规模并行的PIM加速器，旨在克服这些限制。GenDRAM利用单片三维DRAM（M3D DRAM）的巨大容量和内部带宽，将整个数据密集型流水线（例如从种子生成到比对的完整基因组学工作流）集成到单个异构芯片上。其核心是一种新颖的架构，包含用于内存密集型任务的专用搜索处理单元（Search PUs），以及用于多样化DP计算的通用、无乘法器计算处理单元（Compute PUs）。这得益于一种三维感知的数据映射策略，该策略利用M3D DRAM的分层延迟特性进行性能优化。通过全面的仿真，我们证明GenDRAM实现了变革性的性能飞跃，在APSP上超越最先进的GPU系统超过68倍，在端到端基因组学流水线上超过22倍。

0

相关内容

软件（中国大陆及香港用语，台湾作软体，英文：Software）是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。

软件定义无线电（SDR）：商业与军事领域的技术、应用及未来趋势

软件定义无线电（SDR）：商业与军事领域的技术、应用及未来趋势

专知会员服务

17+阅读 · 2025年8月18日

【AAAI2024】SeTformer：视觉与语言处理的理想选择"

【AAAI2024】SeTformer：视觉与语言处理的理想选择"

专知会员服务

21+阅读 · 2024年1月13日

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

专知会员服务

59+阅读 · 2023年12月3日

图预处理怎么做？中科院计算所等《图预处理方法》综述，从算法到硬件视角讲述图预处理方法

图预处理怎么做？中科院计算所等《图预处理方法》综述，从算法到硬件视角讲述图预处理方法

专知会员服务

27+阅读 · 2023年9月18日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【伯利克博士论文】深度学习应用的算法、硬件和调度的协同设计，161页pdf

【伯利克博士论文】深度学习应用的算法、硬件和调度的协同设计，161页pdf

专知会员服务

77+阅读 · 2021年8月18日

【Nature】AI助力芯片设计效率革命，6小时内完成布局设计；Jeff Dean领衔推出最新方案

专知会员服务

15+阅读 · 2021年6月11日

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

专知会员服务

61+阅读 · 2020年5月31日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【数据中台】什么是数据中台？

【数据中台】什么是数据中台？

产业智能官

18+阅读 · 2019年7月30日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

异构众核处理器非对称片上互连网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于混合多址的物与物通信资源分配技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

DRAMatic Speedup: Accelerating HE Operations on a Processing-in-Memory System

Arxiv

0+阅读 · 4月30日

POLAR-PIC: A Holistic Framework for Matrixized PIC with Co-Designed Compute, Layout, and Communication

Arxiv

0+阅读 · 4月21日

VeriGraphi: A Multi-Agent Framework of Hierarchical RTL Generation for Large Hardware Designs

Arxiv

0+阅读 · 4月16日

GEM3D CIM General Purpose Matrix Computation Using 3D Integrated SRAM eDRAM Hybrid Compute In Memory on Memory Architecture

Arxiv

0+阅读 · 4月15日

EdgeCIM: A Hardware-Software Co-Design for CIM-Based Acceleration of Small Language Models

Arxiv

0+阅读 · 4月13日

A comparative study on power delivery aspects of compute-in/near-memory approaches using DRAM

Arxiv

0+阅读 · 4月6日

cuGenOpt: A GPU-Accelerated General-Purpose Metaheuristic Framework for Combinatorial Optimization

Arxiv

0+阅读 · 3月19日

SkipOPU: An FPGA-based Overlay Processor for Large Language Models with Dynamically Allocated Computation

Arxiv

0+阅读 · 3月16日

System-Technology Co-Optimization of Bitline Routing and Bonding Pathways in Monolithic 3D DRAM Architectures

Arxiv

0+阅读 · 3月12日

Hardware-Software Co-design for 3D-DRAM-based LLM Serving Accelerator

Arxiv

0+阅读 · 3月5日

VIP会员

文章信息

相关主题

最新内容

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

0+阅读 · 今天8:28

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

9+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

11+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

16+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

17+阅读 · 7月18日

相关VIP内容

软件定义无线电（SDR）：商业与军事领域的技术、应用及未来趋势

软件定义无线电（SDR）：商业与军事领域的技术、应用及未来趋势

专知会员服务

17+阅读 · 2025年8月18日

【AAAI2024】SeTformer：视觉与语言处理的理想选择"

【AAAI2024】SeTformer：视觉与语言处理的理想选择"

专知会员服务

21+阅读 · 2024年1月13日

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

专知会员服务

59+阅读 · 2023年12月3日

图预处理怎么做？中科院计算所等《图预处理方法》综述，从算法到硬件视角讲述图预处理方法

图预处理怎么做？中科院计算所等《图预处理方法》综述，从算法到硬件视角讲述图预处理方法

专知会员服务

27+阅读 · 2023年9月18日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【伯利克博士论文】深度学习应用的算法、硬件和调度的协同设计，161页pdf

【伯利克博士论文】深度学习应用的算法、硬件和调度的协同设计，161页pdf

专知会员服务

77+阅读 · 2021年8月18日

【Nature】AI助力芯片设计效率革命，6小时内完成布局设计；Jeff Dean领衔推出最新方案

专知会员服务

15+阅读 · 2021年6月11日

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

专知会员服务

61+阅读 · 2020年5月31日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

热门VIP内容

开通专知VIP会员享更多权益服务

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

相关资讯

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【数据中台】什么是数据中台？

【数据中台】什么是数据中台？

产业智能官

18+阅读 · 2019年7月30日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

DRAMatic Speedup: Accelerating HE Operations on a Processing-in-Memory System

Arxiv

0+阅读 · 4月30日

POLAR-PIC: A Holistic Framework for Matrixized PIC with Co-Designed Compute, Layout, and Communication

Arxiv

0+阅读 · 4月21日

VeriGraphi: A Multi-Agent Framework of Hierarchical RTL Generation for Large Hardware Designs

Arxiv

0+阅读 · 4月16日

GEM3D CIM General Purpose Matrix Computation Using 3D Integrated SRAM eDRAM Hybrid Compute In Memory on Memory Architecture

Arxiv

0+阅读 · 4月15日

EdgeCIM: A Hardware-Software Co-Design for CIM-Based Acceleration of Small Language Models

Arxiv

0+阅读 · 4月13日

A comparative study on power delivery aspects of compute-in/near-memory approaches using DRAM

Arxiv

0+阅读 · 4月6日

cuGenOpt: A GPU-Accelerated General-Purpose Metaheuristic Framework for Combinatorial Optimization

Arxiv

0+阅读 · 3月19日

SkipOPU: An FPGA-based Overlay Processor for Large Language Models with Dynamically Allocated Computation

Arxiv

0+阅读 · 3月16日

System-Technology Co-Optimization of Bitline Routing and Bonding Pathways in Monolithic 3D DRAM Architectures

Arxiv

0+阅读 · 3月12日

Hardware-Software Co-design for 3D-DRAM-based LLM Serving Accelerator

Arxiv

0+阅读 · 3月5日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

异构众核处理器非对称片上互连网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于混合多址的物与物通信资源分配技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员