CKKS, an emerging fully homomorphic encryption (FHE) scheme, has been promising in privacy-preserving applications by enabling SIMD fixed-point computations on ciphertexts. Despite its strong security guarantees, CKKS involves both compute-intensive operators (ComOps) with high computational cost and memory-intensive operators (MemOps) with large memory footprints, making existing ASIC-based or NMP-based acceleration approaches suffer from high hardware overhead and limited efficiency. This observation motivates the integration of the architectural advantages of both paradigms into a heterogeneous xPU (ASIC)-xMU (NMP) architecture. However, in such a design, frequent and long-latency heterogeneous communication caused by the dominant keyswitch operator remains a key performance bottleneck. In this paper, we propose $HE^2$, a communication-light xPU-xMU heterogeneous FHE accelerator with dataflow graph (DFG) optimization and architecture co-design. First, we observe that the majority of communication arises at the interface between ModUp/ModDown and neighboring MemOps. To address this, we propose a DFG-level optimization framework to fully exploit the ModUp/ModDown reduction potential of the hoisting algorithm by identifying parallel keyswitch blocks and fusing them for reduced communication frequency. Second, we design an efficient heterogeneous architecture that adopts a group-level pipelined execution to effectively hide communication latency by leveraging the inherent parallelism across decomposed groups. End-to-end evaluation results show that $HE^2$ achieves 1.66$\times$ speedup and 9.23$\times$ lower EDAP (Energy-Delay-Area Product) compared to the state-of-the-art accelerator, with communication stalls accounting for only 6.67% of the total latency.


翻译:CKKS作为一种新兴的全同态加密方案,通过支持密文上的SIMD定点计算,在隐私保护应用中展现出巨大潜力。尽管具有强大的安全保证,CKKS同时包含计算密集型算子(高计算成本)和内存密集型算子(大内存占用),使得现有基于ASIC或近内存计算的加速方法面临高硬件开销和有限效率的问题。这一观察促使我们将两种范式的架构优势整合到异构xPU(ASIC)-xMU(近内存计算)架构中。然而在此类设计中,由主导性密钥切换算子引发的频繁长延迟异构通信仍是关键性能瓶颈。本文提出$HE^2$,一种采用数据流图优化与架构协同设计的轻通信异构FHE加速器。首先,我们发现大部分通信发生在ModUp/ModDown与相邻MemOps的接口处。为此,我们提出数据流图级优化框架,通过识别并行密钥切换块并进行融合以降低通信频率,充分挖掘提升算法的ModUp/ModDown缩减潜力。其次,我们设计了高效异构架构,采用组级流水线执行,通过利用分解组间的固有并行性有效隐藏通信延迟。端到端评估结果表明,与最先进的加速器相比,$HE^2$实现1.66倍加速比和9.23倍EDAP(能量-延迟-面积积)降低,通信停顿仅占总延迟的6.67%。

0
下载
关闭预览

相关内容

美国NIST正式发布首批3项后量子加密标准
专知会员服务
14+阅读 · 2024年8月19日
面向端边云协同架构的区块链技术综述
专知会员服务
49+阅读 · 2021年12月24日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员