Self-supervised learning (SSL) has advanced speech processing but suffers from quadratic complexity due to self-attention. To address this, SummaryMixing (SM) has been proposed as a linear-time alternative that summarizes entire utterances using mean pooling but lacks sufficient local context. In this work, we introduce Windowed SummaryMixing (WSM), which enhances SM by integrating local neighborhood summaries alongside the global summary, maintaining efficiency while improving temporal dependencies. Additionally, we introduce a selective fine-tuning approach, replacing self-attention layers in SSL models with WSM blocks and fine-tuning only these blocks in low-resource settings. Our approach improves ASR performance while reducing peak VRAM usage by 40\% in the SSL models. WSM blocks have linear-time complexity with enhanced context awareness. Selectively replacing some attention layers reduces compute, memory, and latency, making it ideal for low-resource speech recognition.


翻译:自监督学习(SSL)显著推动了语音处理技术的发展,但其自注意力机制导致的二次复杂度问题依然存在。为应对此挑战,摘要混合(SM)作为一种线性时间替代方案被提出,该方法通过均值池化汇总整个语音片段,但缺乏足够的局部上下文信息。本研究提出窗口化摘要混合(WSM),在保留全局摘要的同时引入局部邻域摘要,在维持计算效率的同时增强了时序依赖性。此外,我们提出选择性微调策略:将SSL模型中的自注意力层替换为WSM模块,并在低资源场景下仅对这些模块进行微调。该方法在提升自动语音识别(ASR)性能的同时,将SSL模型的峰值显存使用量降低了40%。WSM模块具有线性时间复杂度与增强的上下文感知能力。选择性替换部分注意力层有效降低了计算量、内存占用和延迟,为低资源语音识别提供了理想解决方案。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
基于句子嵌入的无监督文本摘要(附代码实现)
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员