Large speech recognition models like Whisper-small achieve high accuracy but are difficult to deploy on edge devices due to their high computational demand. To this end, we present a unified, cross-library evaluation of post-training quantization (PTQ) on Whisper-small that disentangles the impact of quantization scheme, method, granularity, and bit-width. Our study is based on four libraries: PyTorch, Optimum-Quanto, HQQ, and bitsandbytes. Experiments on LibriSpeech test-clean and test-other show that dynamic int8 quantization with Quanto offers the best trade-off, reducing model size by 57% while improving on the baseline's word error rate. Static quantization performed worse, likely due to Whisper's Transformer architecture, while more aggressive formats (e.g., nf4, int3) achieved up to 71% compression at the cost of accuracy in noisy conditions. Overall, our results demonstrate that carefully chosen PTQ methods can substantially reduce model size and inference cost without retraining, enabling efficient deployment of Whisper-small on constrained hardware.


翻译:像Whisper-small这样的大型语音识别模型虽然精度高,但由于其计算需求高,难以部署在边缘设备上。为此,我们针对Whisper-small模型的后训练量化(PTQ)开展了一项统一且跨库的评估,旨在厘清量化方案、方法、粒度和位宽的影响。本研究基于四个库:PyTorch、Optimum-Quanto、HQQ和bitsandbytes。在LibriSpeech test-clean和test-other数据集上的实验表明,采用Quanto库的动态int8量化在模型大小减少57%的同时,基线的词错误率(WER)得到改善,实现了最佳权衡。静态量化表现较差,这很可能归因于Whisper的Transformer架构;而更激进的量化格式(如nf4、int3)在噪声条件下虽能以精度为代价,实现高达71%的压缩率。总体而言,我们的结果表明,精心选择的PTQ方法能够在无需重新训练的情况下大幅减少模型大小和推理成本,从而支持Whisper-small模型在受限硬件上的高效部署。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
运用小型语言模型解锁战术边缘人工智能优势
专知会员服务
31+阅读 · 2025年9月7日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
小型语言模型综述
专知会员服务
56+阅读 · 2024年10月29日
缩小CLIP规模:数据、架构与训练策略的全面分析
专知会员服务
22+阅读 · 2024年4月15日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
运用小型语言模型解锁战术边缘人工智能优势
专知会员服务
31+阅读 · 2025年9月7日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
小型语言模型综述
专知会员服务
56+阅读 · 2024年10月29日
缩小CLIP规模:数据、架构与训练策略的全面分析
专知会员服务
22+阅读 · 2024年4月15日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员