Benchmarking NIST-Standardised ML-KEM and ML-DSA on ARM Cortex-M0+: Performance, Memory, and Energy on the RP2040 - 专知论文

会员服务 ·

0

ML · 基准 · 基准测试 · ARM · 内存 ·

Benchmarking NIST-Standardised ML-KEM and ML-DSA on ARM Cortex-M0+: Performance, Memory, and Energy on the RP2040

翻译：NIST标准化ML-KEM与ML-DSA在ARM Cortex-M0+上的基准测试：RP2040的性能、内存与能耗

from arxiv, 12 pages, 5 figures, 8 tables. Code and data: https://github.com/rojinc/pqc-cortex-m0-benchmark

The migration to post-quantum cryptography is urgent for Internet of Things devices with 10--20 year lifespans, yet no systematic benchmarks exist for the finalised NIST standards on the most constrained 32-bit processor class. This paper presents the first isolated algorithm-level benchmarks of ML-KEM (FIPS 203) and ML-DSA (FIPS 204) on ARM Cortex-M0+, measured on the RP2040 (Raspberry Pi Pico) at 133 MHz with 264 KB SRAM. Using PQClean reference C implementations, we measure all three security levels of ML-KEM (512/768/1024) and ML-DSA (44/65/87) across key generation, encapsulation/signing, and decapsulation/verification. ML-KEM-512 completes a full key exchange in 35.7 ms with an estimated energy cost of 2.83 mJ (datasheet power model)--17x faster than a complete ECDH P-256 key agreement on the same hardware. ML-DSA signing exhibits high latency variance due to rejection sampling (coefficient of variation 66--73%, 99th-percentile up to 1,125 ms for ML-DSA-87). The M0+ incurs only a 1.8--1.9x slowdown relative to published Cortex-M4 reference C results (compiled with -O3 versus our -Os), despite lacking 64-bit multiply, DSP, and SIMD instructions--making this a conservative upper bound on the microarchitectural penalty. All code, data, and scripts are released as an open-source benchmark suite for reproducibility.

翻译：对于使用寿命长达10-20年的物联网设备而言，向后量子密码学迁移迫在眉睫，然而在最受限的32位处理器类别上，至今尚无针对最终确定的NIST标准的系统化基准测试。本文首次在ARM Cortex-M0+上，基于RP2040（树莓派Pico，主频133 MHz，264 KB SRAM）对ML-KEM（FIPS 203）和ML-DSA（FIPS 204）进行了独立的算法级基准测试。我们采用PQClean参考C语言实现，测量了ML-KEM（512/768/1024）和ML-DSA（44/65/87）在所有三个安全级别下的密钥生成、封装/签名和解封装/验证性能。ML-KEM-512可在35.7毫秒内完成完整密钥交换，预估能耗为2.83毫焦（基于数据手册功率模型）——比同一硬件上完整的ECDH P-256密钥协商快17倍。ML-DSA签名因拒绝采样而呈现高延迟变异（变异系数66%至73%，ML-DSA-87的99百分位延迟高达1,125毫秒）。尽管缺少64位乘法器、DSP和SIMD指令，M0+相较于已发表的Cortex-M4参考C结果（编译时使用-O3，而我们使用-Os）仅存在1.8至1.9倍的性能下降——这构成了微架构性能损失的保守上界。所有代码、数据和脚本均作为开源基准测试套件发布，以确保可复现性。

0

相关内容

EdgeRunner AI：在本地设备关键军事任务中实现GPT-5级性能表现（附论文）

EdgeRunner AI：在本地设备关键军事任务中实现GPT-5级性能表现（附论文）

专知会员服务

29+阅读 · 2025年11月19日

《支持 ML/AI 的下一代智能自主网络系统：性能提升与管理》177页

《支持 ML/AI 的下一代智能自主网络系统：性能提升与管理》177页

专知会员服务

43+阅读 · 2024年11月22日

美国NIST正式发布首批3项后量子加密标准

美国NIST正式发布首批3项后量子加密标准

专知会员服务

14+阅读 · 2024年8月19日

《物联网参考体系结构》国家标准

《物联网参考体系结构》国家标准

专知会员服务

30+阅读 · 2024年6月22日

《专用数据处理器（DPU）性能基准评测方法与实现》技术白皮书发布，104页pdf

《专用数据处理器（DPU）性能基准评测方法与实现》技术白皮书发布，104页pdf

专知会员服务

61+阅读 · 2022年8月1日

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

专知会员服务

65+阅读 · 2022年3月6日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

【NeurIPS 2021】准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练

【NeurIPS 2021】准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练

专知会员服务

11+阅读 · 2022年1月3日

内存瓶颈和计算负载问题一举突破？韩松团队提出MUCNetV2：解锁MCU端新纪录！

内存瓶颈和计算负载问题一举突破？韩松团队提出MUCNetV2：解锁MCU端新纪录！

专知会员服务

13+阅读 · 2021年11月6日

内存计算研究进展

专知会员服务

29+阅读 · 2021年2月26日

【GNN】MPNN：消息传递神经网络

【GNN】MPNN：消息传递神经网络

深度学习自然语言处理

17+阅读 · 2020年4月11日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

5GAA：C-V2X和DSRC的性能对比分析报告

5GAA：C-V2X和DSRC的性能对比分析报告

智能交通技术

11+阅读 · 2019年3月8日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

干货 | 循环神经网络（RNN）和LSTM初学者指南

干货 | 循环神经网络（RNN）和LSTM初学者指南

THU数据派

15+阅读 · 2019年1月25日

【PHM】NIST：PHM制造工艺流程技术和指标路线图

【PHM】NIST：PHM制造工艺流程技术和指标路线图

产业智能官

11+阅读 · 2019年1月13日

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

论智

12+阅读 · 2018年10月14日

前沿 | 简述脉冲神经网络SNN：下一代神经网络

前沿 | 简述脉冲神经网络SNN：下一代神经网络

机器之心

39+阅读 · 2018年1月13日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

深度学习基础之LSTM

深度学习基础之LSTM

全球人工智能

29+阅读 · 2017年12月18日

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO系统基于结构化压缩感知的信道估计中导频设计新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

碳纳米管微波毫米波（26.5 GHz–330 GHz）散射参数测量及特征参数提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

5G极化码译码算法理论与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于原子系综的低噪声量子精密测量

国家自然科学基金

1+阅读 · 2014年12月31日

KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

Arxiv

0+阅读 · 5月6日

KEET: Explaining Performance of GPU Kernels Using LLM Agents

Arxiv

0+阅读 · 5月6日

NeuroRing: Scaling Spiking Neural Networks via Multi-FPGA Bidirectional Ring Topologies and Stream-Dataflow Architectures

Arxiv

0+阅读 · 4月30日

Benchmarking NIST-Standardised ML-KEM and ML-DSA on ARM Cortex-M0+: Performance, Memory, and Energy on the RP2040

Arxiv

0+阅读 · 4月22日

A Comparative Analysis of ARM and x86-64 Laptop-Class Processors: Architecture, Assembly-Level Performance, and Energy Efficiency

Arxiv

0+阅读 · 4月20日

GPU-Accelerated Quantum Simulation: Empirical Backend Selection, Gate Fusion, and Adaptive Precision

Arxiv

0+阅读 · 4月4日

Benchmarking Post-Quantum Cryptography on Resource-Constrained IoT Devices: ML-KEM and ML-DSA on ARM Cortex-M0+

Arxiv

0+阅读 · 3月26日

Benchmarking Post-Quantum Cryptography on Resource-Constrained IoT Devices: ML-KEM and ML-DSA on ARM Cortex-M0+

Arxiv

0+阅读 · 3月25日

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Arxiv

0+阅读 · 3月24日

SCALE-Sim TPU: Validating and Extending SCALE-Sim for TPUs

Arxiv

0+阅读 · 3月23日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

3+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

5+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

4+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

EdgeRunner AI：在本地设备关键军事任务中实现GPT-5级性能表现（附论文）

EdgeRunner AI：在本地设备关键军事任务中实现GPT-5级性能表现（附论文）

专知会员服务

29+阅读 · 2025年11月19日

《支持 ML/AI 的下一代智能自主网络系统：性能提升与管理》177页

《支持 ML/AI 的下一代智能自主网络系统：性能提升与管理》177页

专知会员服务

43+阅读 · 2024年11月22日

美国NIST正式发布首批3项后量子加密标准

美国NIST正式发布首批3项后量子加密标准

专知会员服务

14+阅读 · 2024年8月19日

《物联网参考体系结构》国家标准

《物联网参考体系结构》国家标准

专知会员服务

30+阅读 · 2024年6月22日

《专用数据处理器（DPU）性能基准评测方法与实现》技术白皮书发布，104页pdf

《专用数据处理器（DPU）性能基准评测方法与实现》技术白皮书发布，104页pdf

专知会员服务

61+阅读 · 2022年8月1日

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

专知会员服务

65+阅读 · 2022年3月6日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

【NeurIPS 2021】准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练

【NeurIPS 2021】准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练

专知会员服务

11+阅读 · 2022年1月3日

内存瓶颈和计算负载问题一举突破？韩松团队提出MUCNetV2：解锁MCU端新纪录！

内存瓶颈和计算负载问题一举突破？韩松团队提出MUCNetV2：解锁MCU端新纪录！

专知会员服务

13+阅读 · 2021年11月6日

内存计算研究进展

专知会员服务

29+阅读 · 2021年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【GNN】MPNN：消息传递神经网络

【GNN】MPNN：消息传递神经网络

深度学习自然语言处理

17+阅读 · 2020年4月11日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

5GAA：C-V2X和DSRC的性能对比分析报告

5GAA：C-V2X和DSRC的性能对比分析报告

智能交通技术

11+阅读 · 2019年3月8日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

干货 | 循环神经网络（RNN）和LSTM初学者指南

干货 | 循环神经网络（RNN）和LSTM初学者指南

THU数据派

15+阅读 · 2019年1月25日

【PHM】NIST：PHM制造工艺流程技术和指标路线图

【PHM】NIST：PHM制造工艺流程技术和指标路线图

产业智能官

11+阅读 · 2019年1月13日

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

论智

12+阅读 · 2018年10月14日

前沿 | 简述脉冲神经网络SNN：下一代神经网络

前沿 | 简述脉冲神经网络SNN：下一代神经网络

机器之心

39+阅读 · 2018年1月13日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

深度学习基础之LSTM

深度学习基础之LSTM

全球人工智能

29+阅读 · 2017年12月18日

相关论文

KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

Arxiv

0+阅读 · 5月6日

KEET: Explaining Performance of GPU Kernels Using LLM Agents

Arxiv

0+阅读 · 5月6日

NeuroRing: Scaling Spiking Neural Networks via Multi-FPGA Bidirectional Ring Topologies and Stream-Dataflow Architectures

Arxiv

0+阅读 · 4月30日

Benchmarking NIST-Standardised ML-KEM and ML-DSA on ARM Cortex-M0+: Performance, Memory, and Energy on the RP2040

Arxiv

0+阅读 · 4月22日

A Comparative Analysis of ARM and x86-64 Laptop-Class Processors: Architecture, Assembly-Level Performance, and Energy Efficiency

Arxiv

0+阅读 · 4月20日

GPU-Accelerated Quantum Simulation: Empirical Backend Selection, Gate Fusion, and Adaptive Precision

Arxiv

0+阅读 · 4月4日

Benchmarking Post-Quantum Cryptography on Resource-Constrained IoT Devices: ML-KEM and ML-DSA on ARM Cortex-M0+

Arxiv

0+阅读 · 3月26日

Benchmarking Post-Quantum Cryptography on Resource-Constrained IoT Devices: ML-KEM and ML-DSA on ARM Cortex-M0+

Arxiv

0+阅读 · 3月25日

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Arxiv

0+阅读 · 3月24日

SCALE-Sim TPU: Validating and Extending SCALE-Sim for TPUs

Arxiv

0+阅读 · 3月23日

相关基金

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO系统基于结构化压缩感知的信道估计中导频设计新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

碳纳米管微波毫米波（26.5 GHz–330 GHz）散射参数测量及特征参数提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

5G极化码译码算法理论与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于原子系综的低噪声量子精密测量

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员