NVLLM: A 3D NAND-Centric Architecture Enabling Edge on-Device LLM Inference - 专知论文

会员服务 ·

0

NVLLM: A 3D NAND-Centric Architecture Enabling Edge on-Device LLM Inference

翻译：NVLLM：面向边缘设备上LLM推理的3D NAND中心架构

Mingbo Hao,Changwei Yan,Haoyu Cui,Zhihao Yan,Yizhi Ding,Zhangrui Qian,Weiwei Shan

from arxiv, Author version

The rapid growth of LLMs demands high-throughput, memory-capacity-intensive inference on resource-constrained edge devices, where single-batch decoding remains fundamentally memory-bound. Existing out-of-core GPU-based and SSD-like accelerators are limited by DRAM-bound weight movement and inefficient storage access granularity. We present NVLLM, a 3D NAND-centric inference architecture that offloads feed-forward network (FFN) computation into the Flash while executing attention on lightweight CMOS logic with external DRAM. Through wafer-to-wafer stacking, NVLLM tightly integrates multi-plane 3D NAND with compute pipelines, error correction code (ECC) units, and buffers, enabling page-level FFN weight access without DRAM traversal. All GEMM/GEMV operations are decomposed into dot-product primitives executed by out-of-order PE lanes, operating directly on raw NAND reads with integrated ECC. Attention weights remain in DRAM, and a KV-cache-aware scheduler sustains throughput as the context length grows. Evaluated on OPT and LLaMA models with up to 30B parameters, NVLLM achieves a 16.7$\times$--37.9$\times$ speedup over A800-based out-of-core inference and up to 4.7$\times$ speedup over SSD-like designs, with only 2.7\% CMOS area overhead.

翻译：大语言模型的快速发展对资源受限的边缘设备提出了高吞吐量、大内存容量的推理需求，其中单批次解码本质上受限于内存性能。现有基于GPU的存外计算加速器及类SSD加速器受制于DRAM受限的权重移动和低效的存储访问粒度。本文提出NVLLM——一种以3D NAND为核心的推理架构：它将前馈网络计算卸载到闪存中执行，同时通过轻量级CMOS逻辑与外部DRAM运行注意力机制。通过晶圆对晶圆堆叠技术，NVLLM将多平面3D NAND与计算流水线、纠错码单元和缓存紧密集成，实现了无需经过DRAM的页级前馈网络权重访问。所有通用矩阵乘法/通用矩阵向量乘法运算均分解为点积原语，由乱序执行处理单元通道直接处理集成ECC的原始NAND读取数据。注意力权重保留在DRAM中，并采用支持KV缓存的调度器以在上下文长度增长时维持吞吐量。在包含高达300亿参数的OPT和LLaMA模型上的评估显示，NVLLM相比基于A800的存外推理实现16.7倍至37.9倍加速，相比类SSD设计实现最高4.7倍加速，且仅增加2.7%的CMOS面积开销。

0

相关内容

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

专知会员服务

56+阅读 · 2024年11月17日

【新书】构建LLM应用：使用大型语言模型创建智能应用和代理，312页pdf

【新书】构建LLM应用：使用大型语言模型创建智能应用和代理，312页pdf

专知会员服务

100+阅读 · 2024年6月15日

揭秘NVIDIA大模型推理框架：TensorRT-LLM

揭秘NVIDIA大模型推理框架：TensorRT-LLM

专知会员服务

56+阅读 · 2024年2月1日

使用 OpenLLM 构建和部署大模型应用

使用 OpenLLM 构建和部署大模型应用

专知会员服务

55+阅读 · 2024年1月4日

【大模型+仿射科学】LLM在放射科学中应用潜力如何？数十家研究机构联合测试了31个大模型

【大模型+仿射科学】LLM在放射科学中应用潜力如何？数十家研究机构联合测试了31个大模型

专知会员服务

24+阅读 · 2023年9月15日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

ICLR 2019计算机视觉、NLP、图模型、对抗学习、表示学习和元学习最新技术分享

ICLR 2019计算机视觉、NLP、图模型、对抗学习、表示学习和元学习最新技术分享

深度学习与NLP

17+阅读 · 2019年6月16日

NLP 与 NLU：从语言理解到语言处理

NLP 与 NLU：从语言理解到语言处理

AI研习社

15+阅读 · 2019年5月29日

CenterNet：目标即点（代码已开源）

CenterNet：目标即点（代码已开源）

极市平台

25+阅读 · 2019年5月24日

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

泡泡机器人SLAM

36+阅读 · 2019年4月28日

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

极市平台

19+阅读 · 2019年4月18日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

【收藏】支持向量机原理详解+案例+代码！【点击阅读原文下载】

【收藏】支持向量机原理详解+案例+代码！【点击阅读原文下载】

机器学习算法与Python学习

10+阅读 · 2018年9月13日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

CTR预估专栏 | 一文搞懂DeepFM的理论与实践

CTR预估专栏 | 一文搞懂DeepFM的理论与实践

AI前线

13+阅读 · 2018年7月6日

三维堆叠DRAM的低功耗刷新技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

异构众核处理器非对称片上互连网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

3D堆叠众核处理器共享存储访问均衡性研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向10Tb/in2级磁存储系统的二维LDPC码设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于金刚石NV色心的固态核磁共振陀螺关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

高密度三维存储器件集成中的基础科学问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

可光场调控的纳米磁流体材料及相应的光控全光纤功能器件关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有槽型结构的亚波长直径光纤

国家自然科学基金

0+阅读 · 2014年12月31日

VitaLLM: A Versatile and Tiny Accelerator for Mixed-Precision LLM Inference on Edge Devices

Arxiv

0+阅读 · 5月1日

RCW-CIM: A Digital CIM-based LLM Accelerator with Read-Compute/Write

Arxiv

0+阅读 · 4月30日

DUAL-BLADE: Dual-Path NVMe-Direct KV-Cache Offloading for Edge LLM Inference

Arxiv

0+阅读 · 4月29日

Vec-LUT: Vector Table Lookup for Parallel Ultra-Low-Bit LLM Inference on Edge Devices

Arxiv

0+阅读 · 4月14日

Rethinking Compute Substrates for 3D-Stacked Near-Memory LLM Decoding: Microarchitecture-Scheduling Co-Design

Arxiv

0+阅读 · 4月9日

A Full-Stack Performance Evaluation Infrastructure for 3D-DRAM-based LLM Accelerators

Arxiv

0+阅读 · 4月9日

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network

Arxiv

0+阅读 · 4月8日

Horizon-LM: A RAM-Centric Architecture for LLM Training

Arxiv

0+阅读 · 4月6日

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network

Arxiv

0+阅读 · 3月31日

Hardware-Software Co-design for 3D-DRAM-based LLM Serving Accelerator

Arxiv

0+阅读 · 3月5日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

0+阅读 · 13分钟前

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

0+阅读 · 15分钟前

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

1+阅读 · 45分钟前

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

1+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

1+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

1+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

专知会员服务

56+阅读 · 2024年11月17日

【新书】构建LLM应用：使用大型语言模型创建智能应用和代理，312页pdf

【新书】构建LLM应用：使用大型语言模型创建智能应用和代理，312页pdf

专知会员服务

100+阅读 · 2024年6月15日

揭秘NVIDIA大模型推理框架：TensorRT-LLM

揭秘NVIDIA大模型推理框架：TensorRT-LLM

专知会员服务

56+阅读 · 2024年2月1日

使用 OpenLLM 构建和部署大模型应用

使用 OpenLLM 构建和部署大模型应用

专知会员服务

55+阅读 · 2024年1月4日

【大模型+仿射科学】LLM在放射科学中应用潜力如何？数十家研究机构联合测试了31个大模型

【大模型+仿射科学】LLM在放射科学中应用潜力如何？数十家研究机构联合测试了31个大模型

专知会员服务

24+阅读 · 2023年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《伊朗与以色列-美国热战及其对数字技术的影响》

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

相关资讯

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

ICLR 2019计算机视觉、NLP、图模型、对抗学习、表示学习和元学习最新技术分享

ICLR 2019计算机视觉、NLP、图模型、对抗学习、表示学习和元学习最新技术分享

深度学习与NLP

17+阅读 · 2019年6月16日

NLP 与 NLU：从语言理解到语言处理

NLP 与 NLU：从语言理解到语言处理

AI研习社

15+阅读 · 2019年5月29日

CenterNet：目标即点（代码已开源）

CenterNet：目标即点（代码已开源）

极市平台

25+阅读 · 2019年5月24日

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

泡泡机器人SLAM

36+阅读 · 2019年4月28日

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

极市平台

19+阅读 · 2019年4月18日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

【收藏】支持向量机原理详解+案例+代码！【点击阅读原文下载】

【收藏】支持向量机原理详解+案例+代码！【点击阅读原文下载】

机器学习算法与Python学习

10+阅读 · 2018年9月13日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

CTR预估专栏 | 一文搞懂DeepFM的理论与实践

CTR预估专栏 | 一文搞懂DeepFM的理论与实践

AI前线

13+阅读 · 2018年7月6日

相关论文

VitaLLM: A Versatile and Tiny Accelerator for Mixed-Precision LLM Inference on Edge Devices

Arxiv

0+阅读 · 5月1日

RCW-CIM: A Digital CIM-based LLM Accelerator with Read-Compute/Write

Arxiv

0+阅读 · 4月30日

DUAL-BLADE: Dual-Path NVMe-Direct KV-Cache Offloading for Edge LLM Inference

Arxiv

0+阅读 · 4月29日

Vec-LUT: Vector Table Lookup for Parallel Ultra-Low-Bit LLM Inference on Edge Devices

Arxiv

0+阅读 · 4月14日

Rethinking Compute Substrates for 3D-Stacked Near-Memory LLM Decoding: Microarchitecture-Scheduling Co-Design

Arxiv

0+阅读 · 4月9日

A Full-Stack Performance Evaluation Infrastructure for 3D-DRAM-based LLM Accelerators

Arxiv

0+阅读 · 4月9日

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network

Arxiv

0+阅读 · 4月8日

Horizon-LM: A RAM-Centric Architecture for LLM Training

Arxiv

0+阅读 · 4月6日

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network

Arxiv

0+阅读 · 3月31日

Hardware-Software Co-design for 3D-DRAM-based LLM Serving Accelerator

Arxiv

0+阅读 · 3月5日

相关基金

三维堆叠DRAM的低功耗刷新技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

异构众核处理器非对称片上互连网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

3D堆叠众核处理器共享存储访问均衡性研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向10Tb/in2级磁存储系统的二维LDPC码设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于金刚石NV色心的固态核磁共振陀螺关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

高密度三维存储器件集成中的基础科学问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

可光场调控的纳米磁流体材料及相应的光控全光纤功能器件关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有槽型结构的亚波长直径光纤

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员