Vector multiplication is a fundamental operation for AI acceleration, responsible for over 85% of computational load in convolution tasks. While essential, these operations are primary drivers of area, power, and delay in modern datapath designs. Conventional multiplier architectures often force a compromise between latency and complexity: high-speed array multipliers demand significant power, whereas sequential designs offer efficiency at the cost of throughput. This paper presents a precompute-reuse nibble multiplier architecture that bridges this gap by reformulating multiplication as a structured composition of reusable nibble-level precomputed values. The proposed design treats each operand as an independent low-precision element, decomposes it into fixed-width nibbles, and generates scaled multiples of a broadcast operand using compact shift-add logic. By replacing wide lookup tables and multiway multiplexers with logic-based precomputation and regular accumulation, the architecture decouples cycle complexity from gate delay. The design completes each 8-bit multiplication in two deterministic cycles with a short critical path, scales efficiently across vector lanes, and significantly reduces area and energy consumption. RTL implementations synthesized in TSMC 28 nm technology demonstrate up to 1.69x area reduction and 1.63x power improvement over shift-add, and nearly 2.6x area and 2.7x power savings compared to LUT-based array multipliers at 128 bit scale.


翻译:向量乘法是人工智能加速的基础运算,在卷积任务中承担超过85%的计算负载。尽管不可或缺,这些操作却是现代数据通路设计中面积、功耗和延迟的主要来源。传统乘法器架构往往在延迟与复杂度之间被迫折衷:高速阵列乘法器功耗显著,而顺序设计虽能效较高却以吞吐量为代价。本文提出一种预计算复用的半字节乘法器架构,通过将乘法重构为可复用的半字节级预计算值的结构化组合,从而弥合上述差距。该设计将每个操作数视为独立的低精度元素,将其分解为固定宽度的半字节,并利用紧凑的移位-加法逻辑生成广播操作数的缩放倍数。通过用基于逻辑的预计算和规则累加替代宽位查找表与多路复用器,该架构实现了周期复杂度与门级延迟的解耦。该设计以较短的关键路径在两个确定周期内完成每次8位乘法,能效地跨向量通道扩展,并显著降低面积与能耗。基于TSMC 28 nm工艺综合的RTL实现表明:相较于移位-加法方案,该设计可实现高达1.69倍面积缩减与1.63倍功耗改进;在128位规模下,与基于查找表的阵列乘法器相比,可获得近2.6倍面积节约与2.7倍功耗降低。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
【博士论文】利用图结构加速稀疏计算
专知会员服务
18+阅读 · 2025年3月6日
【博士论文】基于冲量的加速优化算法
专知会员服务
28+阅读 · 2021年11月29日
专知会员服务
18+阅读 · 2021年3月16日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
【直观详解】支持向量机SVM
机器学习研究会
18+阅读 · 2017年11月8日
并行算法演进,从MapReduce到MPI
凡人机器学习
10+阅读 · 2017年11月5日
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
0+阅读 · 19分钟前
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
21+阅读 · 4月29日
相关资讯
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
【直观详解】支持向量机SVM
机器学习研究会
18+阅读 · 2017年11月8日
并行算法演进,从MapReduce到MPI
凡人机器学习
10+阅读 · 2017年11月5日
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员