Trilinear Compute-in-Memory Architecture for Energy-Efficient Transformer Acceleration - 专知论文

会员服务 ·

0

非易失 · 非易失性 · 非易失性存储 · 非易失性存储器 · 存储 ·

Trilinear Compute-in-Memory Architecture for Energy-Efficient Transformer Acceleration

翻译：面向节能Transformer加速的三线性存内计算架构

Md Zesun Ahmed Mia,Jiahui Duan,Kai Ni,Abhronil Sengupta

Self-attention in Transformers generates dynamic operands that force conventional Compute-in-Memory (CIM) accelerators into costly non-volatile memory (NVM) reprogramming cycles, degrading throughput and stressing device endurance. Existing solutions either reduce but retain NVM writes through matrix decomposition or sparsity, or move attention computation to digital CMOS at the expense of NVM density. We present TrilinearCIM, a Double-Gate FeFET (DG-FeFET)-based architecture that uses back-gate modulation to realize a three-operand multiply-accumulate primitive for in-memory attention computation without dynamic ferroelectric reprogramming. Evaluated on BERT-base (GLUE) and ViT-base (ImageNet and CIFAR), TrilinearCIM outperforms conventional CIM on seven of nine GLUE tasks while achieving up to 46.6\% energy reduction and 20.4\% latency improvement over conventional FeFET CIM at 37.3\% area overhead. To our knowledge, this is the first architecture to perform complete Transformer attention computation exclusively in NVM cores without runtime reprogramming.

翻译：Transformer中的自注意力机制生成动态操作数，迫使传统存内计算加速器陷入昂贵的非易失性存储器重编程周期，导致吞吐量下降并加速器件磨损。现有解决方案要么通过矩阵分解或稀疏化减少但保留非易失性存储器写入操作，要么将注意力计算转移至数字CMOS单元而以牺牲非易失性存储器密度为代价。本文提出TrilinearCIM——一种基于双栅FeFET（DG-FeFET）的架构，利用背栅调制实现三操作数乘累加原语，可在无需动态铁电重编程的情况下完成存内注意力计算。在BERT-base（GLUE）和ViT-base（ImageNet与CIFAR）上的评估表明，TrilinearCIM在九项GLUE任务中的七项优于传统存内计算方案，并在额外面积开销37.3%的前提下，相比传统FeFET存内计算实现最高46.6%的能耗降低与20.4%的延迟改善。据我们所知，这是首个完全在非易失性存储器核心中完成Transformer注意力计算且无需运行时重编程的架构。

0

相关内容

非易失

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

144页ppt！《Transformers》全面讲解，附视频

144页ppt！《Transformers》全面讲解，附视频

专知会员服务

119+阅读 · 2023年1月1日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

专知会员服务

20+阅读 · 2021年10月26日

华为等发布《视觉Transformer转换器》综述论文，21页pdf

华为等发布《视觉Transformer转换器》综述论文，21页pdf

专知会员服务

86+阅读 · 2020年12月25日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

百闻不如一码！手把手教你用Python搭一个Transformer

百闻不如一码！手把手教你用Python搭一个Transformer

大数据文摘

18+阅读 · 2019年4月22日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

基于加速网的光电混合三维互连架构设计方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

云存储系统中节能关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非线性能量吸收器的裂纹转子延寿研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式存储器容错设计关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

FusionCIM: Accelerating LLM Inference with Fusion-Driven Computing-in-Memory Architecture

Arxiv

0+阅读 · 4月28日

INCRT: An Incremental Transformer That Determines Its Own Architecture

Arxiv

0+阅读 · 4月12日

Fast Cross-Operator Optimization of Attention Dataflow

Arxiv

0+阅读 · 4月3日

FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation

Arxiv

0+阅读 · 3月27日

Efficient transformer adaptation for analog in-memory computing via low-rank adapters

Arxiv

0+阅读 · 3月21日

Mitigating the Bandwidth Wall via Data-Streaming System-Accelerator Co-Design

Arxiv

0+阅读 · 3月19日

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Arxiv

0+阅读 · 3月12日

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Arxiv

0+阅读 · 3月4日

Accelerating Multi-Scale Deformable Attention Using Near-Memory-Processing Architecture

Arxiv

0+阅读 · 3月1日

STELLAR: Storage Tuning Engine Leveraging LLM Autonomous Reasoning for High Performance Parallel File Systems

Arxiv

0+阅读 · 2月26日

VIP会员

文章信息

相关主题

非易失性存储

非易失性存储器

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

5+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

4+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

4+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

144页ppt！《Transformers》全面讲解，附视频

144页ppt！《Transformers》全面讲解，附视频

专知会员服务

119+阅读 · 2023年1月1日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

专知会员服务

20+阅读 · 2021年10月26日

华为等发布《视觉Transformer转换器》综述论文，21页pdf

华为等发布《视觉Transformer转换器》综述论文，21页pdf

专知会员服务

86+阅读 · 2020年12月25日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

百闻不如一码！手把手教你用Python搭一个Transformer

百闻不如一码！手把手教你用Python搭一个Transformer

大数据文摘

18+阅读 · 2019年4月22日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

相关论文

FusionCIM: Accelerating LLM Inference with Fusion-Driven Computing-in-Memory Architecture

Arxiv

0+阅读 · 4月28日

INCRT: An Incremental Transformer That Determines Its Own Architecture

Arxiv

0+阅读 · 4月12日

Fast Cross-Operator Optimization of Attention Dataflow

Arxiv

0+阅读 · 4月3日

FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation

Arxiv

0+阅读 · 3月27日

Efficient transformer adaptation for analog in-memory computing via low-rank adapters

Arxiv

0+阅读 · 3月21日

Mitigating the Bandwidth Wall via Data-Streaming System-Accelerator Co-Design

Arxiv

0+阅读 · 3月19日

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Arxiv

0+阅读 · 3月12日

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Arxiv

0+阅读 · 3月4日

Accelerating Multi-Scale Deformable Attention Using Near-Memory-Processing Architecture

Arxiv

0+阅读 · 3月1日

STELLAR: Storage Tuning Engine Leveraging LLM Autonomous Reasoning for High Performance Parallel File Systems

Arxiv

0+阅读 · 2月26日

相关基金

基于加速网的光电混合三维互连架构设计方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

云存储系统中节能关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非线性能量吸收器的裂纹转子延寿研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式存储器容错设计关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员