Huawei's openPangu-Embedded-1B and openPangu-Embedded-7B, variants of the openPangu large language model, integrate three distinct Chain-of-Thought (CoT) reasoning paradigms, namely slow_think, auto_think, and no_think. While these CoT modes enhance reasoning capabilities, their generation of extended reasoning traces introduces substantial memory and latency overheads, posing challenges for practical deployment on Ascend NPUs. This paper addresses these computational constraints by leveraging low-bit quantization, which transforms FP16 computations into more efficient integer arithmetic. We introduce a unified low-bit inference framework, supporting INT8 (W8A8) and W4A8 quantization, specifically optimized for openPangu-Embedded models on the Atlas A2. Our comprehensive evaluation, conducted across all three CoT modes on code generation benchmarks (HumanEval and MBPP), demonstrates the efficacy of this approach. INT8 quantization consistently preserves over 90\% of the FP16 baseline accuracy and achieves a 1.5x prefill speedup on the Atlas A2. Furthermore, W4A8 quantization significantly reduces memory consumption, albeit with a moderate trade-off in accuracy. These findings collectively indicate that low-bit quantization effectively facilitates efficient CoT reasoning on Ascend NPUs, maintaining high model fidelity.


翻译:华为的openPangu-Embedded-1B和openPangu-Embedded-7B作为openPangu大语言模型的变体,集成了三种不同的思维链推理范式,即slow_think、auto_think和no_think。尽管这些CoT模式增强了推理能力,但其生成扩展推理轨迹的过程带来了显著的内存和延迟开销,为在昇腾NPU上的实际部署带来了挑战。本文通过利用低位量化技术来解决这些计算约束,该技术将FP16计算转换为更高效的整数运算。我们引入了一个统一的低位推理框架,支持INT8(W8A8)和W4A8量化,并专门针对Atlas A2平台上的openPangu-Embedded模型进行了优化。我们在代码生成基准测试集(HumanEval和MBPP)上对所有三种CoT模式进行的全面评估证明了该方法的有效性。INT8量化始终能保持超过90\%的FP16基线精度,并在Atlas A2上实现了1.5倍的预填充加速。此外,W4A8量化显著降低了内存消耗,尽管在精度上存在适度的权衡。这些发现共同表明,低位量化能有效促进昇腾NPU上的高效CoT推理,同时保持较高的模型保真度。

0
下载
关闭预览

相关内容

OpenAI“开放权重模型”即将进入美军作战体系
专知会员服务
26+阅读 · 2025年11月20日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
类O1复现项目数据和模型开源啦
专知会员服务
36+阅读 · 2024年12月24日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
使用 OpenLLM 构建和部署大模型应用
专知会员服务
55+阅读 · 2024年1月4日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
重构 Palantir 数据模型
待字闺中
27+阅读 · 2018年12月27日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
资源 | 清华大学开源OpenKE:知识表示学习平台
机器之心
10+阅读 · 2017年11月4日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月29日
VIP会员
相关资讯
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
重构 Palantir 数据模型
待字闺中
27+阅读 · 2018年12月27日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
资源 | 清华大学开源OpenKE:知识表示学习平台
机器之心
10+阅读 · 2017年11月4日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员