Benchmarking NIST-Standardised ML-KEM and ML-DSA on ARM Cortex-M0+: Performance, Memory, and Energy on the RP2040 - 专知论文

会员服务 ·

0

ML · 基准 · 基准测试 · ARM · 内存 ·

Benchmarking NIST-Standardised ML-KEM and ML-DSA on ARM Cortex-M0+: Performance, Memory, and Energy on the RP2040

翻译：基于NIST标准ML-KEM与ML-DSA在ARM Cortex-M0+上的基准测试：RP2040的性能、内存与能耗分析

from arxiv, 12 pages, 5 figures, 8 tables. Code and data: https://github.com/rojinc/pqc-cortex-m0-benchmark

The migration to post-quantum cryptography is urgent for Internet of Things devices with 10--20 year lifespans, yet no systematic benchmarks exist for the finalised NIST standards on the most constrained 32-bit processor class. This paper presents the first isolated algorithm-level benchmarks of ML-KEM (FIPS 203) and ML-DSA (FIPS 204) on ARM Cortex-M0+, measured on the RP2040 (Raspberry Pi Pico) at 133 MHz with 264 KB SRAM. Using PQClean reference C implementations, we measure all three security levels of ML-KEM (512/768/1024) and ML-DSA (44/65/87) across key generation, encapsulation/signing, and decapsulation/verification. ML-KEM-512 completes a full key exchange in 35.7 ms with an estimated energy cost of 2.83 mJ (datasheet power model)--17x faster than a complete ECDH P-256 key agreement on the same hardware. ML-DSA signing exhibits high latency variance due to rejection sampling (coefficient of variation 66--73%, 99th-percentile up to 1,125 ms for ML-DSA-87). The M0+ incurs only a 1.8--1.9x slowdown relative to published Cortex-M4 reference C results (compiled with -O3 versus our -Os), despite lacking 64-bit multiply, DSP, and SIMD instructions--making this a conservative upper bound on the microarchitectural penalty. All code, data, and scripts are released as an open-source benchmark suite for reproducibility.

翻译：为了确保具有10-20年使用寿命的物联网设备能够安全过渡到后量子密码学时代，相关迁移工作刻不容缓。然而，针对资源最为受限的32位处理器类别，目前尚缺乏基于最终确定的NIST标准的系统性基准测试。本文首次在ARM Cortex-M0+上，基于RP2040（树莓派Pico）平台（运行于133 MHz，配备264 KB SRAM），提供了针对ML-KEM（FIPS 203）和ML-DSA（FIPS 204）的独立算法级基准测试。我们采用PQClean参考C语言实现，测量了ML-KEM（512/768/1024）和ML-DSA（44/65/87）所有三个安全级别在密钥生成、封装/签名以及解密/验证等环节的性能。ML-KEM-512完成一次完整密钥交换需35.7毫秒，估算能耗为2.83毫焦（基于数据手册功耗模型），这比在同一硬件上进行一次完整的ECDH P-256密钥协商快17倍。ML-DSA签名因拒绝采样机制而呈现出高延迟方差（变异系数为66-73%，对于ML-DSA-87，其99百分位延迟高达1125毫秒）。与已发布的Cortex-M4参考C语言结果（使用-O3编译，而我们的代码使用-Os优化）相比，M0+处理器的性能下降仅为1.8-1.9倍，尽管其缺乏64位乘法器、DSP以及SIMD指令——这构成了微架构性能惩罚的一个保守上界。为便于复现，所有代码、数据和脚本均已作为开源基准测试套件发布。

0

相关内容

EdgeRunner AI：在本地设备关键军事任务中实现GPT-5级性能表现（附论文）

EdgeRunner AI：在本地设备关键军事任务中实现GPT-5级性能表现（附论文）

专知会员服务

29+阅读 · 2025年11月19日

美国NIST正式发布首批3项后量子加密标准

美国NIST正式发布首批3项后量子加密标准

专知会员服务

14+阅读 · 2024年8月19日

《物联网参考体系结构》国家标准

《物联网参考体系结构》国家标准

专知会员服务

30+阅读 · 2024年6月22日

《量子算法及应用》美空军AFRL32页技术报告

《量子算法及应用》美空军AFRL32页技术报告

专知会员服务

40+阅读 · 2023年1月3日

《专用数据处理器（DPU）性能基准评测方法与实现》技术白皮书发布，104页pdf

《专用数据处理器（DPU）性能基准评测方法与实现》技术白皮书发布，104页pdf

专知会员服务

61+阅读 · 2022年8月1日

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

专知会员服务

65+阅读 · 2022年3月6日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

88+阅读 · 2022年2月20日

【NeurIPS 2021】准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练

【NeurIPS 2021】准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练

专知会员服务

11+阅读 · 2022年1月3日

内存计算研究进展

专知会员服务

29+阅读 · 2021年2月26日

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

专知会员服务

78+阅读 · 2020年6月25日

【GNN】MPNN：消息传递神经网络

【GNN】MPNN：消息传递神经网络

深度学习自然语言处理

17+阅读 · 2020年4月11日

5GAA：C-V2X和DSRC的性能对比分析报告

5GAA：C-V2X和DSRC的性能对比分析报告

智能交通技术

11+阅读 · 2019年3月8日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

干货 | 循环神经网络（RNN）和LSTM初学者指南

干货 | 循环神经网络（RNN）和LSTM初学者指南

THU数据派

15+阅读 · 2019年1月25日

【PHM】NIST：PHM制造工艺流程技术和指标路线图

【PHM】NIST：PHM制造工艺流程技术和指标路线图

产业智能官

11+阅读 · 2019年1月13日

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

论智

12+阅读 · 2018年10月14日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

机器学习研究会

11+阅读 · 2018年1月14日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

深度学习基础之LSTM

深度学习基础之LSTM

全球人工智能

29+阅读 · 2017年12月18日

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

Ni3Al基单晶合金中合金化元素行为及其对性能的作用机理

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于原子系综的低噪声量子精密测量

国家自然科学基金

1+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

Arxiv

0+阅读 · 5月11日

KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

Arxiv

0+阅读 · 5月6日

NeuroRing: Scaling Spiking Neural Networks via Multi-FPGA Bidirectional Ring Topologies and Stream-Dataflow Architectures

Arxiv

0+阅读 · 4月30日

A Comparative Analysis of ARM and x86-64 Laptop-Class Processors: Architecture, Assembly-Level Performance, and Energy Efficiency

Arxiv

0+阅读 · 4月20日

Neptune: Advanced ML Operator Fusion for Locality and Parallelism on GPUs

Arxiv

0+阅读 · 4月20日

GPU-Accelerated Quantum Simulation: Empirical Backend Selection, Gate Fusion, and Adaptive Precision

Arxiv

0+阅读 · 4月4日

Benchmarking NIST-Standardised ML-KEM and ML-DSA on ARM Cortex-M0+: Performance, Memory, and Energy on the RP2040

Arxiv

0+阅读 · 3月30日

Benchmarking Post-Quantum Cryptography on Resource-Constrained IoT Devices: ML-KEM and ML-DSA on ARM Cortex-M0+

Arxiv

0+阅读 · 3月26日

Benchmarking Post-Quantum Cryptography on Resource-Constrained IoT Devices: ML-KEM and ML-DSA on ARM Cortex-M0+

Arxiv

0+阅读 · 3月25日

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Arxiv

0+阅读 · 3月24日

VIP会员

文章信息

相关主题

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

5+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

2+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

1+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

1+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

6+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

5+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

8+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

9+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

9+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

EdgeRunner AI：在本地设备关键军事任务中实现GPT-5级性能表现（附论文）

EdgeRunner AI：在本地设备关键军事任务中实现GPT-5级性能表现（附论文）

专知会员服务

29+阅读 · 2025年11月19日

美国NIST正式发布首批3项后量子加密标准

美国NIST正式发布首批3项后量子加密标准

专知会员服务

14+阅读 · 2024年8月19日

《物联网参考体系结构》国家标准

《物联网参考体系结构》国家标准

专知会员服务

30+阅读 · 2024年6月22日

《量子算法及应用》美空军AFRL32页技术报告

《量子算法及应用》美空军AFRL32页技术报告

专知会员服务

40+阅读 · 2023年1月3日

《专用数据处理器（DPU）性能基准评测方法与实现》技术白皮书发布，104页pdf

《专用数据处理器（DPU）性能基准评测方法与实现》技术白皮书发布，104页pdf

专知会员服务

61+阅读 · 2022年8月1日

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

专知会员服务

65+阅读 · 2022年3月6日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

88+阅读 · 2022年2月20日

【NeurIPS 2021】准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练

【NeurIPS 2021】准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练

专知会员服务

11+阅读 · 2022年1月3日

内存计算研究进展

专知会员服务

29+阅读 · 2021年2月26日

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

专知会员服务

78+阅读 · 2020年6月25日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

【GNN】MPNN：消息传递神经网络

【GNN】MPNN：消息传递神经网络

深度学习自然语言处理

17+阅读 · 2020年4月11日

5GAA：C-V2X和DSRC的性能对比分析报告

5GAA：C-V2X和DSRC的性能对比分析报告

智能交通技术

11+阅读 · 2019年3月8日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

干货 | 循环神经网络（RNN）和LSTM初学者指南

干货 | 循环神经网络（RNN）和LSTM初学者指南

THU数据派

15+阅读 · 2019年1月25日

【PHM】NIST：PHM制造工艺流程技术和指标路线图

【PHM】NIST：PHM制造工艺流程技术和指标路线图

产业智能官

11+阅读 · 2019年1月13日

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

论智

12+阅读 · 2018年10月14日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

机器学习研究会

11+阅读 · 2018年1月14日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

深度学习基础之LSTM

深度学习基础之LSTM

全球人工智能

29+阅读 · 2017年12月18日

相关论文

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

Arxiv

0+阅读 · 5月11日

KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

Arxiv

0+阅读 · 5月6日

NeuroRing: Scaling Spiking Neural Networks via Multi-FPGA Bidirectional Ring Topologies and Stream-Dataflow Architectures

Arxiv

0+阅读 · 4月30日

A Comparative Analysis of ARM and x86-64 Laptop-Class Processors: Architecture, Assembly-Level Performance, and Energy Efficiency

Arxiv

0+阅读 · 4月20日

Neptune: Advanced ML Operator Fusion for Locality and Parallelism on GPUs

Arxiv

0+阅读 · 4月20日

GPU-Accelerated Quantum Simulation: Empirical Backend Selection, Gate Fusion, and Adaptive Precision

Arxiv

0+阅读 · 4月4日

Benchmarking NIST-Standardised ML-KEM and ML-DSA on ARM Cortex-M0+: Performance, Memory, and Energy on the RP2040

Arxiv

0+阅读 · 3月30日

Benchmarking Post-Quantum Cryptography on Resource-Constrained IoT Devices: ML-KEM and ML-DSA on ARM Cortex-M0+

Arxiv

0+阅读 · 3月26日

Benchmarking Post-Quantum Cryptography on Resource-Constrained IoT Devices: ML-KEM and ML-DSA on ARM Cortex-M0+

Arxiv

0+阅读 · 3月25日

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Arxiv

0+阅读 · 3月24日

相关基金

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

Ni3Al基单晶合金中合金化元素行为及其对性能的作用机理

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于原子系综的低噪声量子精密测量

国家自然科学基金

1+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员