Multilingual ASR models such as Whisper perform well on high-resource languages but exhibit substantially higher Word Error Rates (WER) for Dravidian languages compared to Indo-Aryan ones. Through linguistic and dataset analysis, we show that Dravidian languages have longer words, higher vocabulary diversity, and lower repetition, resulting in sparse token distributions and frequent character-level substitution errors. Baseline fine-tuning further reveals decoder imbalance between self-attention (linguistic context) and cross-attention (acoustic cues). Although synthetic token-repetition experiments indicate potential gains, they are impractical. Motivated by these observations, we introduce two decoder-level enhancements: Weighted-Attention, which adaptively balances attention sources, and Self-Conditioning, which reinjects intermediate predictions to improve token consistency. Experiments demonstrate consistent WER reductions for low-resource and agglutinative languages.


翻译:多语言自动语音识别模型(如Whisper)在高资源语言上表现优异,但在达罗毗荼语系上的词错误率(WER)显著高于印度-雅利安语系。通过语言学和数据集分析,我们揭示了达罗毗荼语系具有更长的词汇长度、更高的词汇多样性和更低的重复率,导致标记分布稀疏且频繁出现字符级替代错误。基线微调进一步暴露出解码器中自注意力(语言上下文)与交叉注意力(声学线索)之间的不平衡。尽管合成标记重复实验表明其可能带来性能提升,但实际应用不可行。基于这些观察,我们提出两种解码器级优化:加权注意力机制(Weighted-Attention),可自适应平衡注意力来源;自我条件机制(Self-Conditioning),通过重新注入中间预测提升标记一致性。实验表明,该方法持续降低了低资源及黏着语的词错误率。

0
下载
关闭预览

相关内容

【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
36+阅读 · 2023年11月22日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 19分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 36分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
36+阅读 · 2023年11月22日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员