We conduct an empirical study of cross-lingual transfer using spontaneous, noisy, and code-mixed speech across a wide range of Indic dialects and language varieties. Our results indicate that although ASR performance is generally improved with reduced phylogenetic distance between languages, this factor alone does not fully explain performance in dialectal settings. Often, fine-tuning on smaller amounts of dialectal data yields performance comparable to fine-tuning on larger amounts of phylogenetically-related, high-resource standardized languages. We also present a case study on Garhwali, a low-resource Pahari language variety, and evaluate multiple contemporary ASR models. Finally, we analyze transcription errors to examine bias toward pre-training languages, providing additional insight into challenges faced by ASR systems on dialectal and non-standardized speech.


翻译:我们对多种印度方言及语言变体中的自发、嘈杂及语码混合语音进行了跨语言迁移的实证研究。结果表明,尽管自动语音识别(ASR)性能通常随语言间谱系距离的缩小而提升,但该因素并不能完全解释方言环境下的性能表现。在多数情况下,使用少量方言数据进行微调所达到的性能,与使用大量谱系相关的高资源标准化语言数据进行微调的效果相当。此外,我们以低资源帕哈里语变体——加瓦尔语为例进行了案例研究,并对多种当代ASR模型进行了评估。最后,我们通过分析转写错误来考察模型对预训练语言的偏向,从而进一步揭示ASR系统在处理方言及非标准化语音时所面临的挑战。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【MIT博士论文】用于口语处理的迁移学习,202页pdf
专知会员服务
28+阅读 · 2023年8月14日
【EPFL博士论文】基于transformer的高效语音识别,162页pdf
专知会员服务
45+阅读 · 2023年2月18日
【港科大博士论文】高效迁移学习的低资源自然语言理解
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员