Large-scale multilingual ASR (mASR) models such as Whisper achieve strong performance but incur high computational and latency costs, limiting their deployment on resource-constrained edge devices. In this study, we propose a lightweight and language-agnostic multilingual ASR system based on a CTC architecture with domain adaptation. Specifically, we introduce a Language-agnostic Hierarchical LoRA-MoE (HLoRA) framework integrated into an mHuBERT-CTC model, enabling end-to-end decoding via LID-posterior-driven LoRA routing. The hierarchical design consists of a multilingual shared LoRA for learning language-invariant acoustic representations and language-specific LoRA experts for modeling language-dependent characteristics. The proposed routing mechanism removes the need for prior language identity information or explicit language labels during inference, achieving true language-agnostic decoding. Experiments on MSR-86K and the MLC-SLM 2025 Challenge datasets demonstrate that HLoRA achieves comparable performance to two-stage inference approaches while reducing RTF by 11.7% and 8.2%, respectively, leading to improved decoding efficiency for low-resource mASR applications.


翻译:诸如Whisper等大规模多语言自动语音识别(mASR)模型虽能实现强劲性能,但会带来高昂的计算与延迟成本,限制了其在资源受限的边缘设备上的部署。本研究提出了一种基于CTC架构并具备领域自适应能力的轻量级、语言无关的多语言ASR系统。具体而言,我们引入了一种语言无关的分层LoRA-MoE(HLoRA)框架,并将其集成到mHuBERT-CTC模型中,通过LID后验驱动的LoRA路由实现端到端解码。该分层设计包含一个用于学习语言无关声学表征的多语言共享LoRA,以及一组用于建模语言相关特性的语言特定LoRA专家。所提出的路由机制在推理过程中无需先验语言身份信息或显式语言标签,实现了真正的语言无关解码。在MSR-86K和MLC-SLM 2025挑战数据集上的实验表明,HLoRA取得了与两阶段推理方法相当的性能,同时分别将RTF降低了11.7%和8.2%,从而为低资源mASR应用提升了解码效率。

0
下载
关闭预览

相关内容

《多语言大型语言模型:系统综述》
专知会员服务
49+阅读 · 2024年11月21日
西工大最新《多模态大型语言模型》全面综述
专知会员服务
70+阅读 · 2024年8月6日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
4+阅读 · 4月7日
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 4月7日
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
6+阅读 · 4月7日
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
9+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员