The deployment of Large Language Models (LLMs) for real-time intelligence on edge devices is rapidly growing. However, conventional hardware architectures face a fundamental memory wall challenge, where limited on-device memory capacity and bandwidth severely constrain the size of deployable models and their inference speed, while also limiting on-device adaptation. To address this challenge, we propose TOM, a hybrid ROM-SRAM accelerator co-designed with ternary quantization, which balances extreme density with on-device tunability. TOM exploits the synergy between ternary quantization and ROM to achieve extreme memory density and bandwidth, while preserving flexibility through a hybrid ROM-SRAM architecture designed for QLoRA-based tunability. Specifically, we introduce: (1) a sparsity-aware ROM architecture that synthesizes ternary weights as standard-cell logic, eliminating area overhead from zero-valued bits; (2) a distributed processing architecture that co-locates high-density ROM banks with flexible SRAM-based QLoRA adapters and compute units; and (3) a workload-aware dynamic power gating scheme that exploits the logic-based nature of ROM to power down inactive banks, minimizing dynamic energy consumption. TOM achieves an inference throughput of 3,306 TPS using BitNet-2B model, demonstrating its effectiveness in delivering real-time, energy-efficient edge intelligence.


翻译:大型语言模型在边缘设备上实现实时智能的部署正在快速增长。然而,传统硬件架构面临根本性的内存墙挑战:有限的设备端内存容量和带宽严重制约了可部署模型的规模及其推理速度,同时也限制了设备端自适应能力。为应对这一挑战,我们提出TOM——一种与三态量化协同设计的混合ROM-SRAM加速器,在极致密度与设备端可调性之间取得平衡。TOM利用三态量化与ROM的协同效应,在实现极致内存密度和带宽的同时,通过专为基于QLoRA的可调性设计的混合ROM-SRAM架构保持灵活性。具体而言,我们提出:(1)稀疏感知ROM架构,将三态权重合成为标准单元逻辑,消除零值比特带来的面积开销;(2)分布式处理架构,将高密度ROM存储体与基于SRAM的灵活QLoRA适配器及计算单元就近部署;(3)工作负载感知的动态功耗门控方案,利用ROM基于逻辑的特性关闭非活跃存储体,最小化动态能耗。TOM使用BitNet-2B模型实现了3,306 TPS的推理吞吐量,证明了其在提供实时高效边缘智能方面的有效性。

0
下载
关闭预览

相关内容

基于脉冲神经网络的边缘智能
专知会员服务
20+阅读 · 2025年7月23日
《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
35+阅读 · 2025年4月12日
移动边缘智能与大型语言模型综述
专知会员服务
40+阅读 · 2024年7月31日
【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT
《“边缘计算+”技术白皮书》,82页pdf
专知
11+阅读 · 2022年8月28日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
TensorFlow 2.0新特性之Ragged Tensor
深度学习每日摘要
18+阅读 · 2019年4月5日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
15+阅读 · 2017年5月19日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
技术、多域威慑与海上战争(报告)
专知会员服务
2+阅读 · 今天15:04
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
1+阅读 · 今天14:54
人工智能及其在海军行动中的整合(综述)
专知会员服务
1+阅读 · 今天14:07
美军MAVEN项目全面解析:算法战架构
专知会员服务
16+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
10+阅读 · 今天8:19
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员