AngelSlim: A more accessible, comprehensive, and efficient toolkit for large model compression - 专知论文

会员服务 ·

0

令牌 · 工具 · 模型压缩 · 剪枝 · 集成 ·

AngelSlim: A more accessible, comprehensive, and efficient toolkit for large model compression

翻译：AngelSlim：一个更易用、更全面、更高效的大模型压缩工具包

Rui Cen,QiangQiang Hu,Hong Huang,Hong Liu,Song Liu,Xin Luo,Lin Niu,Yifan Tan,Decheng Wu,Linchuan Xie,Rubing Yang,Guanghua Yu,Jianchen Zhu

This technical report introduces AngelSlim, a comprehensive and versatile toolkit for large model compression developed by the Tencent Hunyuan team. By consolidating cutting-edge algorithms, including quantization, speculative decoding, token pruning, and distillation. AngelSlim provides a unified pipeline that streamlines the transition from model compression to industrial-scale deployment. To facilitate efficient acceleration, we integrate state-of-the-art FP8 and INT8 Post-Training Quantization (PTQ) algorithms alongside pioneering research in ultra-low-bit regimes, featuring HY-1.8B-int2 as the first industrially viable 2-bit large model. Beyond quantization, we propose a training-aligned speculative decoding framework compatible with multimodal architectures and modern inference engines, achieving 1.8x to 2.0x throughput gains without compromising output correctness. Furthermore, we develop a training-free sparse attention framework that reduces Time-to-First-Token (TTFT) in long-context scenarios by decoupling sparse kernels from model architectures through a hybrid of static patterns and dynamic token selection. For multimodal models, AngelSlim incorporates specialized pruning strategies, namely IDPruner for optimizing vision tokens via Maximal Marginal Relevance and Samp for adaptive audio token merging and pruning. By integrating these compression strategies from low-level implementations, AngelSlim enables algorithm-focused research and tool-assisted deployment.

翻译：本技术报告介绍了AngelSlim——由腾讯混元团队开发的全面且多用途的大模型压缩工具包。通过整合包括量化、推测解码、令牌剪枝和蒸馏在内的前沿算法，AngelSlim提供了统一的流水线，简化了从模型压缩到工业级部署的过渡。为实现高效加速，我们集成了最先进的FP8和INT8训练后量化算法以及超低位宽领域的开创性研究，其中HY-1.8B-int2是首个工业可行的2比特大模型。在量化之外，我们提出了一个与多模态架构及现代推理引擎兼容的、面向训练对齐的推测解码框架，在不牺牲输出正确性的前提下实现了1.8倍至2.0倍的吞吐量提升。此外，我们开发了一个免训练的稀疏注意力框架，通过一种结合静态模式与动态令牌选择的混合方法，将稀疏核与模型架构解耦，从而减少了长上下文场景中的首令牌生成时间。针对多模态模型，AngelSlim集成了专门的剪枝策略，即用于优化视觉令牌的IDPruner（基于最大边际相关性）和用于自适应音频令牌合并与剪枝的Samp。通过从底层实现层面集成这些压缩策略，AngelSlim支持面向算法的研究和工具辅助的部署。

0

相关内容

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

专知会员服务

21+阅读 · 2025年1月15日

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

专知会员服务

31+阅读 · 2024年7月15日

大模型的模型压缩与有效推理综述

大模型的模型压缩与有效推理综述

专知会员服务

43+阅读 · 2024年7月8日

最新《工业大模型应用报告》

最新《工业大模型应用报告》

专知会员服务

121+阅读 · 2024年4月5日

大模型专题报告：百模渐欲迷人眼，AI应用繁花开，42页pdf

大模型专题报告：百模渐欲迷人眼，AI应用繁花开，42页pdf

专知会员服务

126+阅读 · 2024年1月29日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

174+阅读 · 2023年12月7日

最好的大模型讲解课！OpenAI技术大牛Andrej Karpathy发布《大型语言模型》概述，附视频与Slides

最好的大模型讲解课！OpenAI技术大牛Andrej Karpathy发布《大型语言模型》概述，附视频与Slides

专知会员服务

104+阅读 · 2023年11月25日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

模型压缩究竟在做什么？我们真的需要模型压缩么？

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

与 TensorFlow 功能互补的腾讯 angel 发布 3.0 ：高效处理千亿级别模型

与 TensorFlow 功能互补的腾讯 angel 发布 3.0 ：高效处理千亿级别模型

AI科技评论

11+阅读 · 2019年8月28日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

【资源】深度学习模型压缩资源汇总

【资源】深度学习模型压缩资源汇总

专知

38+阅读 · 2019年5月8日

【资源推荐】模型压缩与加速相关资源汇总

【资源推荐】模型压缩与加速相关资源汇总

专知

17+阅读 · 2019年3月27日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

新智元

19+阅读 · 2019年1月30日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

基于GAN的极限图像压缩框架

基于GAN的极限图像压缩框架

论智

12+阅读 · 2018年4月15日

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

机器学习研究会

11+阅读 · 2018年1月16日

高通量天基信息网络容量与多址技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于天光一号装置的激光直接驱动准等熵压缩研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

融合压缩感知的图像加密技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

dirichletprocess: An R Package for Fitting Complex Bayesian Nonparametric Models

Arxiv

0+阅读 · 5月2日

Modular Representation Compression: Adapting LLMs for Efficient and Effective Recommendations

Arxiv

0+阅读 · 4月21日

Modular Representation Compression: Adapting LLMs for Efficient and Effective Recommendations

Arxiv

0+阅读 · 4月20日

UIPress: Bringing Optical Token Compression to UI-to-Code Generation

Arxiv

0+阅读 · 4月10日

ENEC: A Lossless AI Model Compression Method Enabling Fast Inference on Ascend NPUs

Arxiv

0+阅读 · 4月7日

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Arxiv

0+阅读 · 4月6日

MLorc: Momentum Low-rank Compression for Memory Efficient Large Language Model Adaptation

Arxiv

0+阅读 · 4月6日

PQuantML: A Tool for End-to-End Hardware-aware Model Compression

Arxiv

0+阅读 · 3月27日

LiZIP: An Auto-Regressive Compression Framework for LiDAR Point Clouds

Arxiv

0+阅读 · 3月24日

DASH: Dynamic Audio-Driven Semantic Chunking for Efficient Omnimodal Token Compression

Arxiv

0+阅读 · 3月15日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

0+阅读 · 4分钟前

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

0+阅读 · 6分钟前

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

相关VIP内容

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

专知会员服务

21+阅读 · 2025年1月15日

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

专知会员服务

31+阅读 · 2024年7月15日

大模型的模型压缩与有效推理综述

大模型的模型压缩与有效推理综述

专知会员服务

43+阅读 · 2024年7月8日

最新《工业大模型应用报告》

最新《工业大模型应用报告》

专知会员服务

121+阅读 · 2024年4月5日

大模型专题报告：百模渐欲迷人眼，AI应用繁花开，42页pdf

大模型专题报告：百模渐欲迷人眼，AI应用繁花开，42页pdf

专知会员服务

126+阅读 · 2024年1月29日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

174+阅读 · 2023年12月7日

最好的大模型讲解课！OpenAI技术大牛Andrej Karpathy发布《大型语言模型》概述，附视频与Slides

最好的大模型讲解课！OpenAI技术大牛Andrej Karpathy发布《大型语言模型》概述，附视频与Slides

专知会员服务

104+阅读 · 2023年11月25日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

模型压缩究竟在做什么？我们真的需要模型压缩么？

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

与 TensorFlow 功能互补的腾讯 angel 发布 3.0 ：高效处理千亿级别模型

与 TensorFlow 功能互补的腾讯 angel 发布 3.0 ：高效处理千亿级别模型

AI科技评论

11+阅读 · 2019年8月28日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

【资源】深度学习模型压缩资源汇总

【资源】深度学习模型压缩资源汇总

专知

38+阅读 · 2019年5月8日

【资源推荐】模型压缩与加速相关资源汇总

【资源推荐】模型压缩与加速相关资源汇总

专知

17+阅读 · 2019年3月27日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

新智元

19+阅读 · 2019年1月30日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

基于GAN的极限图像压缩框架

基于GAN的极限图像压缩框架

论智

12+阅读 · 2018年4月15日

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

机器学习研究会

11+阅读 · 2018年1月16日

相关论文

dirichletprocess: An R Package for Fitting Complex Bayesian Nonparametric Models

Arxiv

0+阅读 · 5月2日

Modular Representation Compression: Adapting LLMs for Efficient and Effective Recommendations

Arxiv

0+阅读 · 4月21日

Modular Representation Compression: Adapting LLMs for Efficient and Effective Recommendations

Arxiv

0+阅读 · 4月20日

UIPress: Bringing Optical Token Compression to UI-to-Code Generation

Arxiv

0+阅读 · 4月10日

ENEC: A Lossless AI Model Compression Method Enabling Fast Inference on Ascend NPUs

Arxiv

0+阅读 · 4月7日

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Arxiv

0+阅读 · 4月6日

MLorc: Momentum Low-rank Compression for Memory Efficient Large Language Model Adaptation

Arxiv

0+阅读 · 4月6日

PQuantML: A Tool for End-to-End Hardware-aware Model Compression

Arxiv

0+阅读 · 3月27日

LiZIP: An Auto-Regressive Compression Framework for LiDAR Point Clouds

Arxiv

0+阅读 · 3月24日

DASH: Dynamic Audio-Driven Semantic Chunking for Efficient Omnimodal Token Compression

Arxiv

0+阅读 · 3月15日

相关基金

高通量天基信息网络容量与多址技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于天光一号装置的激光直接驱动准等熵压缩研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

融合压缩感知的图像加密技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员