31.1 A 14.08-to-135.69Token/s ReRAM-on-Logic Stacked Outlier-Free Large-Language-Model Accelerator with Block-Clustered Weight-Compression and Adaptive Parallel-Speculative-Decoding - 专知论文

会员服务 ·

0

解码 · 堆叠 · 自适应 · 并行 · 词元分析器 ·

31.1 A 14.08-to-135.69Token/s ReRAM-on-Logic Stacked Outlier-Free Large-Language-Model Accelerator with Block-Clustered Weight-Compression and Adaptive Parallel-Speculative-Decoding

翻译：31.1 一种基于ReRAM-逻辑层堆叠的无异常大语言模型加速器：采用块聚类权重压缩与自适应并行推测解码技术，实现14.08至135.69 Token/s吞吐率

Pingcheng Dong,Yonghao Tan,Xuejiao Liu,Peng Luo,Yu Liu,Di Pang,Songchen Ma,Xijie Huang,Shih-Yang Liu,Dong Zhang,Zhichao Lu,Luhong Liang,Chi-Ying Tsui,Fengbin Tu,Liang Zhao,Kwang-Ting Cheng

This work presents a 55nm speculative decoding-based LLM accelerator with bumping-based face-to-face ReRAM-on-logic stacking technology. It features a local rotation unit for outlier-free low-bit quantization, a stacking-aware PNM architecture co-designed with blockwise vector quantization to reduce weight EMA overheads, and an adaptive parallel speculative decoding scheme with an out-of-order scheduler for high resource and bandwidth utilization. Our chip achieves 14.08-to-135.69token/s and 4.46-to-7.17x speedup over vanilla speculative decoding.

翻译：本文提出一款基于55nm工艺的推测解码大语言模型加速器，采用凸点键合面对面式ReRAM-逻辑层堆叠技术。该芯片通过局部旋转单元实现无异常低比特量化，设计堆叠感知型PNM架构并协同块式向量量化以降低权重EMA开销，同时提出自适应并行推测解码方案及乱序调度器以提高资源与带宽利用率。实测结果显示，该芯片可实现14.08至135.69 Token/s的推理速度，相较传统推测解码获得4.46至7.17倍加速比。

0

相关内容

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

7+阅读 · 5月12日

【伯克利博士论文】基于投机性解码的高效大语言模型系统

【伯克利博士论文】基于投机性解码的高效大语言模型系统

专知会员服务

16+阅读 · 1月4日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

19+阅读 · 2025年11月19日

大语言模型算法演进综述

大语言模型算法演进综述

专知会员服务

81+阅读 · 2024年5月30日

《大型语言模型加速生成技术》最新综述

《大型语言模型加速生成技术》最新综述

专知会员服务

50+阅读 · 2024年5月25日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

103+阅读 · 2024年4月12日

大模型生态加速突破，2024年应用元年有望到来

大模型生态加速突破，2024年应用元年有望到来

专知会员服务

61+阅读 · 2024年3月10日

一文速览大语言模型提示最新进展

一文速览大语言模型提示最新进展

专知会员服务

82+阅读 · 2023年12月24日

历数5年89篇研究，这篇综述告诉我们深度学习中的代码数据增强怎么样了

历数5年89篇研究，这篇综述告诉我们深度学习中的代码数据增强怎么样了

专知会员服务

31+阅读 · 2023年11月26日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

159+阅读 · 2023年8月8日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

换个dataloader函数， COCO提升3mAP ，上海交大MVIG团队提出InstaBoost

换个dataloader函数， COCO提升3mAP ，上海交大MVIG团队提出InstaBoost

极市平台

11+阅读 · 2019年9月8日

GitHub超9千星：一个API调用27个NLP预训练模型

GitHub超9千星：一个API调用27个NLP预训练模型

新智元

17+阅读 · 2019年7月22日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

泡泡机器人SLAM

10+阅读 · 2018年8月7日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【一文看懂】深度神经网络加速和压缩新进展年度报告

【一文看懂】深度神经网络加速和压缩新进展年度报告

新智元

10+阅读 · 2018年5月18日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

Tangram: Hiding GPU Heterogeneity for Efficient LLM Parallelization

Arxiv

0+阅读 · 6月15日

Surpassing Scale by Efficiency: A Compact 135M Parameter Foundational LLM Natively Adapted for the Bangla Language

Arxiv

0+阅读 · 6月15日

TileFuse: A Fused Mixed-Precision Kernel Library for Efficient Quantized LLM Inference on AMD NPUs

Arxiv

0+阅读 · 6月9日

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Arxiv

0+阅读 · 6月7日

HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec

Arxiv

0+阅读 · 6月4日

Understand and Accelerate Memory Processing Pipeline for Large Language Model Inference

Arxiv

0+阅读 · 5月30日

EVA: Accelerating LLM Decoding via an Efficient Vector Quantization Architecture

Arxiv

0+阅读 · 5月22日

SPARe: Stacked Parallelism with Adaptive Reordering for Fault-Tolerant LLM Pretraining Systems with 100k+ GPUs

Arxiv

0+阅读 · 5月15日

SparKV: Overhead-Aware KV Cache Loading for Efficient On-Device LLM Inference

Arxiv

0+阅读 · 5月4日

DABench-LLM: Standardized and In-Depth Benchmarking of Post-Moore Dataflow AI Accelerators for LLMs

Arxiv

0+阅读 · 2025年12月4日

VIP会员

文章信息

相关主题

词元分析器

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

7+阅读 · 5月12日

【伯克利博士论文】基于投机性解码的高效大语言模型系统

【伯克利博士论文】基于投机性解码的高效大语言模型系统

专知会员服务

16+阅读 · 1月4日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

19+阅读 · 2025年11月19日

大语言模型算法演进综述

大语言模型算法演进综述

专知会员服务

81+阅读 · 2024年5月30日

《大型语言模型加速生成技术》最新综述

《大型语言模型加速生成技术》最新综述

专知会员服务

50+阅读 · 2024年5月25日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

103+阅读 · 2024年4月12日

大模型生态加速突破，2024年应用元年有望到来

大模型生态加速突破，2024年应用元年有望到来

专知会员服务

61+阅读 · 2024年3月10日

一文速览大语言模型提示最新进展

一文速览大语言模型提示最新进展

专知会员服务

82+阅读 · 2023年12月24日

历数5年89篇研究，这篇综述告诉我们深度学习中的代码数据增强怎么样了

历数5年89篇研究，这篇综述告诉我们深度学习中的代码数据增强怎么样了

专知会员服务

31+阅读 · 2023年11月26日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

159+阅读 · 2023年8月8日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

换个dataloader函数， COCO提升3mAP ，上海交大MVIG团队提出InstaBoost

换个dataloader函数， COCO提升3mAP ，上海交大MVIG团队提出InstaBoost

极市平台

11+阅读 · 2019年9月8日

GitHub超9千星：一个API调用27个NLP预训练模型

GitHub超9千星：一个API调用27个NLP预训练模型

新智元

17+阅读 · 2019年7月22日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

泡泡机器人SLAM

10+阅读 · 2018年8月7日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【一文看懂】深度神经网络加速和压缩新进展年度报告

【一文看懂】深度神经网络加速和压缩新进展年度报告

新智元

10+阅读 · 2018年5月18日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

相关论文

Tangram: Hiding GPU Heterogeneity for Efficient LLM Parallelization

Arxiv

0+阅读 · 6月15日

Surpassing Scale by Efficiency: A Compact 135M Parameter Foundational LLM Natively Adapted for the Bangla Language

Arxiv

0+阅读 · 6月15日

TileFuse: A Fused Mixed-Precision Kernel Library for Efficient Quantized LLM Inference on AMD NPUs

Arxiv

0+阅读 · 6月9日

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Arxiv

0+阅读 · 6月7日

HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec

Arxiv

0+阅读 · 6月4日

Understand and Accelerate Memory Processing Pipeline for Large Language Model Inference

Arxiv

0+阅读 · 5月30日

EVA: Accelerating LLM Decoding via an Efficient Vector Quantization Architecture

Arxiv

0+阅读 · 5月22日

SPARe: Stacked Parallelism with Adaptive Reordering for Fault-Tolerant LLM Pretraining Systems with 100k+ GPUs

Arxiv

0+阅读 · 5月15日

SparKV: Overhead-Aware KV Cache Loading for Efficient On-Device LLM Inference

Arxiv

0+阅读 · 5月4日

DABench-LLM: Standardized and In-Depth Benchmarking of Post-Moore Dataflow AI Accelerators for LLMs

Arxiv

0+阅读 · 2025年12月4日

相关基金

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员