@NTT：通过设计时常数优化实现算法定制的NTT硬件加速 (@NTT: Algorithm-Targeted NTT hardware acceleration via Design-Time Constant Optimization) - 专知论文

会员服务 ·

0

算法 · 设计 · 变换 · 后量子密码 · 量子密码 ·

@NTT: Algorithm-Targeted NTT hardware acceleration via Design-Time Constant Optimization

翻译：@NTT：通过设计时常数优化实现算法定制的NTT硬件加速

Mohammed Nabeel,Mahmoud Hafez,Michail Maniatakos

from arxiv, Accepted at 2026 IEEE International Symposium on Circuits and Systems (ISCAS)

The Number Theoretic Transform (NTT) is a critical computational bottleneck in many lattice-based postquantum cryptographic (PQC) algorithms. By leveraging the Fast Fourier Transform (FFT) algorithm, the NTT of a polynomial of degree N - 1 can be computed with a time complexity of O(N log N). Hardware implementation of NTT is generally preferred over software ones, as the latter are significantly slower due to complex memory access patterns and modular arithmetic operations. Achieving maximum throughput in hardware, however, typically demands a prohibitively large number of butterfly unit instantiations. In this work, we propose @NTT, which exploits the fact that the ring parameters in these algorithms are fixed, enabling design-time constant optimization and achieving the maximum throughput of N-point NTT per clock cycle with a compact hardware footprint. Our case study on the Dilithium NTT, implemented using the TSMC 28 nm library, operates at a clock frequency of 1.0 GHz with an area of 1.45 mm^2. On FPGA, the design achieves a throughput-per-LUT that is 5.2x higher than the state-of-the-art implementation.

翻译：数论变换（NTT）是许多基于格的后量子密码（PQC）算法中的关键计算瓶颈。通过利用快速傅里叶变换（FFT）算法，次数为 N-1 的多项式的 NTT 计算时间复杂度可降至 O(N log N)。硬件实现的 NTT 通常优于软件实现，因为后者受复杂的存储器访问模式和模算术运算影响，速度显著较慢。然而，在硬件中实现最大吞吐量通常需要数量庞大的蝶形单元实例化，这往往难以实现。本文提出 @NTT 方法，该方法利用这些算法中环参数固定的特性，通过设计时常数优化，在紧凑的硬件面积下实现每时钟周期 N 点 NTT 的最大吞吐量。我们基于 TSMC 28 nm 工艺库实现的 Dilithium NTT 案例研究，在 1.0 GHz 时钟频率下运行，面积为 1.45 mm^2。在 FPGA 上，该设计的每 LUT 吞吐量比现有最先进实现高出 5.2 倍。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

【NeurIPS2025】TITAN：一种面向轨迹感知的大规模 VQE 自适应参数冻结技术

【NeurIPS2025】TITAN：一种面向轨迹感知的大规模 VQE 自适应参数冻结技术

专知会员服务

12+阅读 · 2025年9月20日

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

15+阅读 · 2025年7月3日

《模型量化与视觉变换器硬件加速》综述

《模型量化与视觉变换器硬件加速》综述

专知会员服务

23+阅读 · 2024年5月5日

【斯坦福博士论文】基于自适应采样的加速机器学习算法，113页pdf

【斯坦福博士论文】基于自适应采样的加速机器学习算法，113页pdf

专知会员服务

27+阅读 · 2023年6月25日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

专知会员服务

16+阅读 · 2022年3月17日

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知会员服务

28+阅读 · 2021年11月29日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

AI科技评论

11+阅读 · 2019年5月28日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

AI/ML/DNN硬件加速设计怎么入门？

AI/ML/DNN硬件加速设计怎么入门？

StarryHeavensAbove

11+阅读 · 2018年12月4日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

干货|掌握机器学习数学基础之优化[1]（重点知识）

干货|掌握机器学习数学基础之优化[1]（重点知识）

机器学习研究会

10+阅读 · 2017年11月19日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

量子算法加速性差异研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

利用连续变量多组份纠缠态实现经典和量子算法

国家自然科学基金

0+阅读 · 2015年12月31日

梯度光滑法计算流体力学的算法理论研究和程序开发

国家自然科学基金

2+阅读 · 2015年12月31日

量子计算算法设计与实现方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

具有时滞效应的微分向量优化问题的理论、算法及应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

Accelerating Posterior Inference from Pulsar Light Curves via Learned Latent Representations and Local Simulator-Guided Optimization

Arxiv

0+阅读 · 2月16日

From Buffers to Registers: Unlocking Fine-Grained FlashAttention with Hybrid-Bonded 3D NPU Co-Design

Arxiv

0+阅读 · 2月11日

Accelerating Post-Quantum Cryptography via LLM-Driven Hardware-Software Co-Design

Arxiv

0+阅读 · 2月10日

H-FA: A Hybrid Floating-Point and Logarithmic Approach to Hardware Accelerated FlashAttention

Arxiv

0+阅读 · 2月9日

Optimal Quantum Speedups for Repeatedly Nested Expectation Estimation

Arxiv

0+阅读 · 2月8日

Opt4GPTQ: Co-Optimizing Memory and Computation for 4-bit GPTQ Quantized LLM Inference on Heterogeneous Platforms

Arxiv

0+阅读 · 2月5日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

Efficient Computation of Time-Index Powered Weighted Sums Using Cascaded Accumulators

Arxiv

0+阅读 · 2月3日

Trojan-Resilient NTT: Protecting Against Control Flow and Timing Faults on Reconfigurable Platforms

Arxiv

0+阅读 · 1月30日

Rate-Distortion Optimization for Transformer Inference

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

后量子密码

相关VIP内容

【NeurIPS2025】TITAN：一种面向轨迹感知的大规模 VQE 自适应参数冻结技术

【NeurIPS2025】TITAN：一种面向轨迹感知的大规模 VQE 自适应参数冻结技术

专知会员服务

12+阅读 · 2025年9月20日

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

15+阅读 · 2025年7月3日

《模型量化与视觉变换器硬件加速》综述

《模型量化与视觉变换器硬件加速》综述

专知会员服务

23+阅读 · 2024年5月5日

【斯坦福博士论文】基于自适应采样的加速机器学习算法，113页pdf

【斯坦福博士论文】基于自适应采样的加速机器学习算法，113页pdf

专知会员服务

27+阅读 · 2023年6月25日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

专知会员服务

16+阅读 · 2022年3月17日

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知会员服务

28+阅读 · 2021年11月29日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

AI科技评论

11+阅读 · 2019年5月28日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

AI/ML/DNN硬件加速设计怎么入门？

AI/ML/DNN硬件加速设计怎么入门？

StarryHeavensAbove

11+阅读 · 2018年12月4日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

干货|掌握机器学习数学基础之优化[1]（重点知识）

干货|掌握机器学习数学基础之优化[1]（重点知识）

机器学习研究会

10+阅读 · 2017年11月19日

相关论文

Accelerating Posterior Inference from Pulsar Light Curves via Learned Latent Representations and Local Simulator-Guided Optimization

Arxiv

0+阅读 · 2月16日

From Buffers to Registers: Unlocking Fine-Grained FlashAttention with Hybrid-Bonded 3D NPU Co-Design

Arxiv

0+阅读 · 2月11日

Accelerating Post-Quantum Cryptography via LLM-Driven Hardware-Software Co-Design

Arxiv

0+阅读 · 2月10日

H-FA: A Hybrid Floating-Point and Logarithmic Approach to Hardware Accelerated FlashAttention

Arxiv

0+阅读 · 2月9日

Optimal Quantum Speedups for Repeatedly Nested Expectation Estimation

Arxiv

0+阅读 · 2月8日

Opt4GPTQ: Co-Optimizing Memory and Computation for 4-bit GPTQ Quantized LLM Inference on Heterogeneous Platforms

Arxiv

0+阅读 · 2月5日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

Efficient Computation of Time-Index Powered Weighted Sums Using Cascaded Accumulators

Arxiv

0+阅读 · 2月3日

Trojan-Resilient NTT: Protecting Against Control Flow and Timing Faults on Reconfigurable Platforms

Arxiv

0+阅读 · 1月30日

Rate-Distortion Optimization for Transformer Inference

Arxiv

0+阅读 · 1月29日

相关基金

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

量子算法加速性差异研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

利用连续变量多组份纠缠态实现经典和量子算法

国家自然科学基金

0+阅读 · 2015年12月31日

梯度光滑法计算流体力学的算法理论研究和程序开发

国家自然科学基金

2+阅读 · 2015年12月31日

量子计算算法设计与实现方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

具有时滞效应的微分向量优化问题的理论、算法及应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员