Ternary weight quantization (e.g., BitNet b1.58) offers a promising path to mitigate the memory bandwidth bottleneck in Large Language Model (LLM) inference. However, conventional compute platforms lack native support for ternary-weight arithmetic, often relying on inefficient dequantization. Lookup table (LUT)-based hardware architectures provide an effective alternative by replacing multiplications with conditional additions, but their design space remains largely unexplored. Existing designs rely on heuristic parameter selection, lacking a systematic understanding of the architectural trade-offs. This work addresses this gap by formalizing the design space of ternary LUT-based accelerators and presenting an open-source hardware generator coupled with an analytical cost model, validated against synthesis in TSMC 16nm technology. By spanning the full architectural space, this framework not only enables rapid design space exploration but also establishes a common footing for fair cross-design evaluation, which was previously hindered by inconsistent instantiations across published accelerators. Using this framework, we challenge several assumptions and design choices in recent literature. We demonstrate that the optimal architecture is fundamentally governed by the activation data type: while LUT-based reuse offers significant gains for high-cost arithmetic (e.g., FP16), it yields diminishing returns for small integer types. Furthermore, we show that maximizing core size consistently improves area density compared to highly tiled approaches. Our optimized designs achieve a 2.2x area reduction compared to multiplier-based baselines. Moreover, by benchmarking state-of-the-art implementations against our model, we reveal that correcting suboptimal parameters yields up to a 1.2x area improvement.


翻译:三值权重量化(如BitNet b1.58)为缓解大语言模型推理中的内存带宽瓶颈提供了有前景的路径。然而,传统计算平台缺乏对三值权重算术的原生支持,往往依赖低效的反量化操作。基于查找表的硬件架构通过将乘法运算替换为条件加法提供了有效替代方案,但其设计空间仍待系统探索。现有设计依赖启发式参数选择,缺乏对架构权衡的系统性理解。本文通过形式化三值查找表加速器的设计空间,并开源集成了分析性成本模型的硬件生成器(基于TSMC 16nm工艺综合验证),弥补了这一空白。通过覆盖完整的架构空间,该框架不仅支持快速设计空间探索,还为公平的跨设计比较建立了共同基准——此前这一问题因不同加速器发布时采用不一致的实例化方案而难以实现。利用该框架,我们挑战了近期文献中的若干假设与设计选择。研究表明:最优架构本质上受激活数据类型主导——当运算成本较高时(如FP16),基于查找表的复用可带来显著收益,但对小整数类型则产生边际收益递减。此外,最大化核心面积相较于高度分块的方法能持续提升面积密度。与基于乘法器的基线相比,我们优化后的设计实现了2.2倍面积缩减。进一步,通过将现有最优实现与模型基准对比,我们发现修正次优参数可带来最高1.2倍面积效率提升。

0
下载
关闭预览

相关内容

《大语言模型推理加速》全面的硬件视角
专知会员服务
34+阅读 · 2024年10月12日
低比特大语言模型综述:基础、系统与算法
专知会员服务
28+阅读 · 2024年10月6日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
揭秘NVIDIA大模型推理框架:TensorRT-LLM
专知会员服务
56+阅读 · 2024年2月1日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
3倍加速CPU上的BERT模型部署
ApacheMXNet
11+阅读 · 2020年7月13日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
R语言数据挖掘利器:Rattle包
R语言中文社区
21+阅读 · 2018年11月17日
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《大语言模型推理加速》全面的硬件视角
专知会员服务
34+阅读 · 2024年10月12日
低比特大语言模型综述:基础、系统与算法
专知会员服务
28+阅读 · 2024年10月6日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
揭秘NVIDIA大模型推理框架:TensorRT-LLM
专知会员服务
56+阅读 · 2024年2月1日
相关资讯
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
3倍加速CPU上的BERT模型部署
ApacheMXNet
11+阅读 · 2020年7月13日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
R语言数据挖掘利器:Rattle包
R语言中文社区
21+阅读 · 2018年11月17日
超全总结:神经网络加速之量化模型 | 附带代码
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员