Huawei's openPangu-Embedded-1B and openPangu-Embedded-7B are variants of the openPangu large language model, designed for efficient deployment on Ascend NPUs. The 7B variant supports three distinct Chain-of-Thought (CoT) reasoning paradigms, namely slow_think, auto_think, and no_think, while the 1B variant operates exclusively in the no_think mode, which employs condensed reasoning for higher efficiency. Although CoT reasoning enhances capability, the generation of extended reasoning traces introduces substantial memory and latency overheads, posing challenges for practical deployment on Ascend NPUs. This paper addresses these computational constraints by leveraging low-bit quantization, which transforms FP16 computations into more efficient integer arithmetic. We introduce a unified low-bit inference framework, supporting INT8 (W8A8) and W4A8 quantization, specifically optimized for openPangu-Embedded models on the Atlas A2. Our comprehensive evaluation on code generation benchmarks (HumanEval and MBPP) demonstrates the efficacy of this approach. INT8 quantization consistently preserves over 90\% of the FP16 baseline accuracy and achieves a 1.5x prefill speedup on the Atlas A2. Furthermore, W4A8 quantization significantly reduces memory consumption, albeit with a moderate trade-off in accuracy. These findings collectively indicate that low-bit quantization effectively facilitates efficient CoT reasoning on Ascend NPUs, maintaining high model fidelity.


翻译:华为的openPangu-Embedded-1B与openPangu-Embedded-7B是openPangu大语言模型的变体,专为在昇腾NPU上的高效部署而设计。7B变体支持三种不同的思维链推理范式,即slow_think、auto_think和no_think,而1B变体仅运行于no_think模式,该模式采用压缩推理以实现更高效率。尽管思维链推理增强了模型能力,但生成长推理轨迹会带来显著的内存与延迟开销,这为在昇腾NPU上的实际部署带来了挑战。本文通过利用低位量化来解决这些计算限制,该技术将FP16计算转换为更高效的整数运算。我们提出了一个统一的低位推理框架,支持INT8(W8A8)和W4A8量化,并专门针对Atlas A2平台上的openPangu-Embedded模型进行了优化。我们在代码生成基准测试上的综合评估证明了该方法的有效性。INT8量化在Atlas A2上持续保持了超过90\%的FP16基线精度,并实现了1.5倍的预填充加速。此外,W4A8量化显著降低了内存消耗,尽管在精度上存在适度的权衡。这些发现共同表明,低位量化能有效促进昇腾NPU上的高效思维链推理,同时保持较高的模型保真度。

0
下载
关闭预览

相关内容

OpenAI“开放权重模型”即将进入美军作战体系
专知会员服务
27+阅读 · 2025年11月20日
探究模型能力与应用的进展和边界
专知会员服务
25+阅读 · 2025年8月27日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
《OpenAI o1大模型》中英文技术报告,44页pdf
专知会员服务
149+阅读 · 2024年9月15日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
使用 OpenLLM 构建和部署大模型应用
专知会员服务
55+阅读 · 2024年1月4日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
轻量attention模块:Spatial Group-wise Enhance
极市平台
15+阅读 · 2019年7月3日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
67+阅读 · 2022年4月13日
VIP会员
相关VIP内容
OpenAI“开放权重模型”即将进入美军作战体系
专知会员服务
27+阅读 · 2025年11月20日
探究模型能力与应用的进展和边界
专知会员服务
25+阅读 · 2025年8月27日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
《OpenAI o1大模型》中英文技术报告,44页pdf
专知会员服务
149+阅读 · 2024年9月15日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
使用 OpenLLM 构建和部署大模型应用
专知会员服务
55+阅读 · 2024年1月4日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员