PQuantML: A Tool for End-to-End Hardware-aware Model Compression - 专知论文

会员服务 ·

0

端到端 · 工具 · 剪枝 · 模型压缩 · 感知模型 ·

PQuantML: A Tool for End-to-End Hardware-aware Model Compression

翻译：PQuantML：一款面向端到端硬件感知模型压缩的工具

Roope Niemi,Anastasiia Petrovych,Arghya Ranjan Das,Enrico Lupi,Chang Sun,Dimitrios Danopoulos,Marlon Joshua Helbing,Mia Liu,Sebastian Dittmeier,Michael Kagan,Vladimir Loncar,Maurizio Pierini

PQuantML is a new open-source, hardware-aware neural network model compression library tailored to end-to-end workflows. Motivated by the need to deploy performant models to environments with strict latency constraints, PQuantML simplifies training of compressed models by providing a unified interface to apply pruning and quantization, either jointly or individually. The library implements multiple pruning methods with different granularities, as well as fixed-point quantization with support for High-Granularity Quantization. We evaluate PQuantML on representative tasks such as the jet substructure classification, so-called jet tagging, an on-edge problem related to real-time LHC data processing. Using various pruning methods with fixed-point quantization, PQuantML achieves substantial parameter and bit-width reductions while maintaining accuracy. The resulting compression is further compared against existing tools, such as QKeras and HGQ.

翻译：PQuantML 是一个全新的开源、硬件感知的神经网络模型压缩库，专为端到端工作流程设计。受在严格延迟约束环境中部署高性能模型的需求驱动，PQuantML 通过提供统一的接口来联合或单独应用剪枝与量化，从而简化了压缩模型的训练。该库实现了多种不同粒度的剪枝方法，以及支持高粒度量化的定点量化。我们在代表性任务上评估了 PQuantML，例如喷注子结构分类，即所谓的喷注标记，这是一个与实时大型强子对撞机数据处理相关的边缘问题。结合使用多种剪枝方法与定点量化，PQuantML 在保持精度的同时实现了参数和位宽的显著缩减。最终得到的压缩结果进一步与现有工具（如 QKeras 和 HGQ）进行了比较。

0

相关内容

端到端

【牛津大学博士论文】深度学习中模型和数据的压缩，160页pdf

【牛津大学博士论文】深度学习中模型和数据的压缩，160页pdf

专知会员服务

83+阅读 · 2023年4月25日

深度学习如何用于压缩？UCI&谷歌这本《神经数据压缩导论》阐述最新进展，91页pdf

深度学习如何用于压缩？UCI&谷歌这本《神经数据压缩导论》阐述最新进展，91页pdf

专知会员服务

37+阅读 · 2022年12月9日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【干货书】深度学习Pytorch快速入门，150页pdf，Deep Learning with PyTorch

【干货书】深度学习Pytorch快速入门，150页pdf，Deep Learning with PyTorch

专知会员服务

156+阅读 · 2021年4月4日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

模型压缩究竟在做什么？我们真的需要模型压缩么？

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

快速上手笔记，PyTorch模型训练实用教程（附代码）

快速上手笔记，PyTorch模型训练实用教程（附代码）

机器之心

22+阅读 · 2018年12月20日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

深度学习之视频图像压缩

深度学习之视频图像压缩

论智

13+阅读 · 2018年6月15日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的网络层析成像技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

鲁棒性压缩感知重构技术及其在智能视频监控中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的通信信号处理理论研究

国家自然科学基金

4+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

MLorc: Momentum Low-rank Compression for Memory Efficient Large Language Model Adaptation

Arxiv

0+阅读 · 4月25日

QSLM: A Performance- and Memory-aware Quantization Framework with Tiered Search Strategy for Spike-driven Language Models

Arxiv

0+阅读 · 4月21日

AlphaQuanter: An End-to-End Tool-Augmented Agentic Reinforcement Learning Framework for Stock Trading

Arxiv

0+阅读 · 4月19日

TempoNet: Slack-Quantized Transformer-Guided Reinforcement Scheduler for Adaptive Deadline-Centric Real-Time Dispatchs

Arxiv

0+阅读 · 4月14日

AHCQ-SAM: Toward Accurate and Hardware-Compatible Post-Training Segment Anything Model Quantization

Arxiv

0+阅读 · 4月8日

MLorc: Momentum Low-rank Compression for Memory Efficient Large Language Model Adaptation

Arxiv

0+阅读 · 4月6日

PR3DICTR: A modular AI framework for medical 3D image-based detection and outcome prediction

Arxiv

0+阅读 · 4月3日

VolTune: A Fine-Grained Runtime Voltage Control Architecture for FPGA Systems

Arxiv

0+阅读 · 3月27日

AngelSlim: A more accessible, comprehensive, and efficient toolkit for large model compression

Arxiv

0+阅读 · 3月23日

QuaQue: Design and SQL Implementation of Condensed Algebra for Concurrent Versioning of Knowledge Graphs

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

【牛津大学博士论文】深度学习中模型和数据的压缩，160页pdf

【牛津大学博士论文】深度学习中模型和数据的压缩，160页pdf

专知会员服务

83+阅读 · 2023年4月25日

深度学习如何用于压缩？UCI&谷歌这本《神经数据压缩导论》阐述最新进展，91页pdf

深度学习如何用于压缩？UCI&谷歌这本《神经数据压缩导论》阐述最新进展，91页pdf

专知会员服务

37+阅读 · 2022年12月9日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【干货书】深度学习Pytorch快速入门，150页pdf，Deep Learning with PyTorch

【干货书】深度学习Pytorch快速入门，150页pdf，Deep Learning with PyTorch

专知会员服务

156+阅读 · 2021年4月4日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

模型压缩究竟在做什么？我们真的需要模型压缩么？

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

快速上手笔记，PyTorch模型训练实用教程（附代码）

快速上手笔记，PyTorch模型训练实用教程（附代码）

机器之心

22+阅读 · 2018年12月20日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

深度学习之视频图像压缩

深度学习之视频图像压缩

论智

13+阅读 · 2018年6月15日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

相关论文

MLorc: Momentum Low-rank Compression for Memory Efficient Large Language Model Adaptation

Arxiv

0+阅读 · 4月25日

QSLM: A Performance- and Memory-aware Quantization Framework with Tiered Search Strategy for Spike-driven Language Models

Arxiv

0+阅读 · 4月21日

AlphaQuanter: An End-to-End Tool-Augmented Agentic Reinforcement Learning Framework for Stock Trading

Arxiv

0+阅读 · 4月19日

TempoNet: Slack-Quantized Transformer-Guided Reinforcement Scheduler for Adaptive Deadline-Centric Real-Time Dispatchs

Arxiv

0+阅读 · 4月14日

AHCQ-SAM: Toward Accurate and Hardware-Compatible Post-Training Segment Anything Model Quantization

Arxiv

0+阅读 · 4月8日

MLorc: Momentum Low-rank Compression for Memory Efficient Large Language Model Adaptation

Arxiv

0+阅读 · 4月6日

PR3DICTR: A modular AI framework for medical 3D image-based detection and outcome prediction

Arxiv

0+阅读 · 4月3日

VolTune: A Fine-Grained Runtime Voltage Control Architecture for FPGA Systems

Arxiv

0+阅读 · 3月27日

AngelSlim: A more accessible, comprehensive, and efficient toolkit for large model compression

Arxiv

0+阅读 · 3月23日

QuaQue: Design and SQL Implementation of Condensed Algebra for Concurrent Versioning of Knowledge Graphs

Arxiv

0+阅读 · 3月19日

相关基金

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的网络层析成像技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

鲁棒性压缩感知重构技术及其在智能视频监控中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的通信信号处理理论研究

国家自然科学基金

4+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员