Parameter-efficient fine-tuning (PEFT) is a scalable approach for adapting large speech foundation models to new domains. While methods such as LoRA and its state-of-the-art variants reduce adaptation costs, they typically allocate parameters uniformly across model subspaces, which limits their efficiency and scalability in speech applications. Building on our prior work, this paper introduces SSVD-Outer (SSVD-O), an extension of the structured SVD-guided (SSVD) fine-tuning method. SSVD-O combines input acoustic feature space-associated inner transformations with output semantic feature space-associated outer transformations to enable scalable and balanced adaptation. We conduct the first systematic analysis of parameter budget allocation across model subspaces in PEFT for automatic speech recognition (ASR), and investigate the trade-off between learning and forgetting under constrained resources. SSVD-O is benchmarked against LoRA, DoRA, PiSSA, and SSVD on domain-shifted ASR tasks, including child speech and regional accents, across model scales from 0.1B to 2B within the ESPnet framework. Experimental results show that SSVD-O consistently narrows the performance gap to full fine-tuning while improving generalization and mitigating catastrophic forgetting.


翻译:参数高效微调(PEFT)是一种可扩展的方法,用于将大型语音基础模型适配到新领域。尽管诸如LoRA及其先进变体等方法降低了适配成本,但它们通常将参数均匀分配在模型子空间中,这限制了其在语音应用中的效率和可扩展性。基于我们先前的工作,本文介绍了SSVD-Outer(SSVD-O),这是结构化奇异值分解引导(SSVD)微调方法的扩展。SSVD-O将输入声学特征空间相关的内部变换与输出语义特征空间相关的外部变换相结合,以实现可扩展且平衡的适配。我们在自动语音识别(ASR)的PEFT中首次系统分析了模型子空间间的参数预算分配,并研究了有限资源下学习与遗忘之间的权衡。在ESPnet框架内,SSVD-O在模型规模从0.1B到2B的领域迁移ASR任务(包括儿童语音和地域口音)上,与LoRA、DoRA、PiSSA和SSVD进行了基准测试。实验结果表明,SSVD-O在提升泛化能力和缓解灾难性遗忘的同时,持续缩小了与全量微调之间的性能差距。

0
下载
关闭预览

相关内容

联邦学习中基础模型参数高效微调综述
专知会员服务
16+阅读 · 2025年5月5日
PEFT A2Z:大型语言与视觉模型的参数高效微调综述
专知会员服务
21+阅读 · 2025年4月22日
《面向基础模型的高效参数微调》综述
专知会员服务
33+阅读 · 2025年1月24日
【ACL2024】DoRA:通过动态秩分布增强参数高效微调
专知会员服务
21+阅读 · 2024年5月28日
预训练视觉模型的参数高效微调
专知会员服务
32+阅读 · 2024年3月19日
针对预训练视觉模型的参数高效微调
专知会员服务
22+阅读 · 2024年2月7日
深度学习网络调参技巧
AINLP
15+阅读 · 2019年11月15日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
联邦学习中基础模型参数高效微调综述
专知会员服务
16+阅读 · 2025年5月5日
PEFT A2Z:大型语言与视觉模型的参数高效微调综述
专知会员服务
21+阅读 · 2025年4月22日
《面向基础模型的高效参数微调》综述
专知会员服务
33+阅读 · 2025年1月24日
【ACL2024】DoRA:通过动态秩分布增强参数高效微调
专知会员服务
21+阅读 · 2024年5月28日
预训练视觉模型的参数高效微调
专知会员服务
32+阅读 · 2024年3月19日
针对预训练视觉模型的参数高效微调
专知会员服务
22+阅读 · 2024年2月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员