LiteASR：基于低秩近似的高效自动语音识别 (LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation) - 专知论文

会员服务 ·

0

语音识别 · 近似 · 模型评估 · 自动语音识别 · 可约的 ·

2025 年 8 月 23 日

LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation

翻译：LiteASR：基于低秩近似的高效自动语音识别

Keisuke Kamahori,Jungo Kasai,Noriyuki Kojima,Baris Kasikci

from arxiv, EMNLP2025 Main

Modern automatic speech recognition (ASR) models, such as OpenAI's Whisper, rely on deep encoder-decoder architectures, and their encoders are a critical bottleneck for efficient deployment due to high computational intensity. We introduce LiteASR, a low-rank compression scheme for ASR encoders that significantly reduces inference costs while maintaining transcription accuracy. Our approach leverages the strong low-rank properties observed in intermediate activations: by applying principal component analysis (PCA) with a small calibration dataset, we approximate linear transformations with a chain of low-rank matrix multiplications, and further optimize self-attention to work in reduced dimensionality. Evaluation results show that our method can compress Whisper large-v3's encoder size by over 50%, matching Whisper medium's size with better transcription accuracy, thereby establishing a new Pareto frontier of accuracy and efficiency. The code of LiteASR is available at https://github.com/efeslab/LiteASR.

翻译：现代自动语音识别（ASR）模型，如OpenAI的Whisper，依赖于深度编码器-解码器架构，其编码器由于计算强度高而成为高效部署的关键瓶颈。我们提出了LiteASR，一种针对ASR编码器的低秩压缩方案，能在保持转录准确性的同时显著降低推理成本。我们的方法利用了在中间激活中观察到的强低秩特性：通过使用小型校准数据集进行主成分分析（PCA），我们用一系列低秩矩阵乘法来近似线性变换，并进一步优化自注意力机制以在降维空间中工作。评估结果表明，我们的方法可以将Whisper large-v3的编码器尺寸压缩超过50%，在达到与Whisper medium相当尺寸的同时获得更好的转录准确性，从而在准确性与效率之间建立了新的帕累托前沿。LiteASR的代码可在https://github.com/efeslab/LiteASR获取。

0

相关内容

语音识别

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

163+阅读 · 2019年10月12日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

STRCF for Visual Object Tracking

STRCF for Visual Object Tracking

统计学习与视觉计算组

15+阅读 · 2018年5月29日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

KingsGarden

13+阅读 · 2017年7月16日

城市“建成环境——空间行为”的多尺度影响关系与机理研究

国家自然科学基金

13+阅读 · 2017年12月31日

Musielak-Orlicz-Sobolev 空间中的迹嵌入及其应用

国家自然科学基金

2+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

ARGenSeg: Image Segmentation with Autoregressive Image Generation Model

Arxiv

0+阅读 · 2025年10月23日

EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization

Arxiv

0+阅读 · 2025年10月23日

OmniVIC: A Self-Improving Variable Impedance Controller with Vision-Language In-Context Learning for Safe Robotic Manipulation

Arxiv

0+阅读 · 2025年10月22日

BO4Mob: Bayesian Optimization Benchmarks for High-Dimensional Urban Mobility Problem

Arxiv

0+阅读 · 2025年10月21日

TPP-SD: Accelerating Transformer Point Process Sampling with Speculative Decoding

Arxiv

0+阅读 · 2025年10月21日

VIP会员

文章信息

相关主题

自动语音识别

相关VIP内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

163+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《思考蜂群：基础、行为、拓扑与架构、认知、未来之路》400页书籍

【伯克利博士论文】协同语言智能体

新型军备竞赛：美军旨在争夺全球无人机主导地位

《乌克兰的无人机生态系统：经验教训》28页报告

相关资讯

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

STRCF for Visual Object Tracking

STRCF for Visual Object Tracking

统计学习与视觉计算组

15+阅读 · 2018年5月29日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

KingsGarden

13+阅读 · 2017年7月16日

相关论文

ARGenSeg: Image Segmentation with Autoregressive Image Generation Model

Arxiv

0+阅读 · 2025年10月23日

EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization

Arxiv

0+阅读 · 2025年10月23日

OmniVIC: A Self-Improving Variable Impedance Controller with Vision-Language In-Context Learning for Safe Robotic Manipulation

Arxiv

0+阅读 · 2025年10月22日

BO4Mob: Bayesian Optimization Benchmarks for High-Dimensional Urban Mobility Problem

Arxiv

0+阅读 · 2025年10月21日

TPP-SD: Accelerating Transformer Point Process Sampling with Speculative Decoding

Arxiv

0+阅读 · 2025年10月21日

相关基金

城市“建成环境——空间行为”的多尺度影响关系与机理研究

国家自然科学基金

13+阅读 · 2017年12月31日

Musielak-Orlicz-Sobolev 空间中的迹嵌入及其应用

国家自然科学基金

2+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员