Continual Learning (CL) in Automatic Speech Recognition (ASR) suffers from catastrophic forgetting when adapting to new tasks, domains, or speakers. A common strategy to mitigate this is to store a subset of past data in memory for rehearsal. However, rehearsal-based methods face key limitations: storing data is often costly, infeasible with pre-trained models, or restricted by privacy regulations. Running existing rehearsal-based methods with smaller memory sizes to alleviate these issues usually leads to degraded performance. We propose a rehearsal-based CL method that remains effective even with minimal memory. It operates in two stages: first, fine-tuning on the new task; second, applying Singular Value Decomposition (SVD) to the changes in linear layers and, in a parameter-efficient manner, retraining only gating vectors on the singular values, which control to extent to which updates from the first stage are accepted, using rehearsal. We extensively test and analyze our method on two monolingual and two multilingual benchmarks. Our method reduces forgetting and outperforms state-of-the-art CL approaches for ASR, even when limited to a single utterance per previous task.


翻译:自动语音识别(ASR)中的持续学习(CL)在适应新任务、新领域或新说话人时,常遭受灾难性遗忘问题。一种常见的缓解策略是将部分历史数据存储在记忆库中用于回放训练。然而,基于回放的方法面临关键限制:存储数据通常成本高昂,对于预训练模型不可行,或受隐私法规限制。若为缓解这些问题而采用更小的记忆库运行现有回放方法,通常会导致性能下降。我们提出一种基于回放的持续学习方法,即使在极小记忆容量下仍能保持有效性。该方法分两个阶段运行:首先,在新任务上进行微调;其次,对线性层参数的变化进行奇异值分解(SVD),并以参数高效的方式,仅对控制第一阶段更新接受程度的奇异值对应的门控向量进行回放重训练。我们在两个单语和两个多语言基准测试上对该方法进行了全面测试与分析。实验表明,即使每个历史任务仅限存储一条语音样本,我们的方法仍能有效减少遗忘,并超越当前最先进的ASR持续学习方法。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
多模态持续学习的最新进展:综合综述
专知会员服务
47+阅读 · 2024年10月10日
【CVPR2024】卷积提示"遇见了语言模型的持续学习
专知会员服务
18+阅读 · 2024年4月1日
【综述】持续学习与预训练模型综述
专知会员服务
54+阅读 · 2024年1月30日
【EPFL博士论文】基于transformer的高效语音识别,162页pdf
专知会员服务
45+阅读 · 2023年2月18日
持续学习:研究综述
专知会员服务
83+阅读 · 2023年1月30日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关VIP内容
多模态持续学习的最新进展:综合综述
专知会员服务
47+阅读 · 2024年10月10日
【CVPR2024】卷积提示"遇见了语言模型的持续学习
专知会员服务
18+阅读 · 2024年4月1日
【综述】持续学习与预训练模型综述
专知会员服务
54+阅读 · 2024年1月30日
【EPFL博士论文】基于transformer的高效语音识别,162页pdf
专知会员服务
45+阅读 · 2023年2月18日
持续学习:研究综述
专知会员服务
83+阅读 · 2023年1月30日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员