Despite its widespread use, Bengali lacks a robust automated International Phonetic Alphabet (IPA) transcription system that effectively supports both standard language and regional dialectal texts. Existing approaches struggle to handle regional variations, numerical expressions, and generalize poorly to previously unseen words. To address these limitations, we propose BanglaIPA, a novel IPA generation system that integrates a character-based vocabulary with word-level alignment. The proposed system accurately handles Bengali numerals and demonstrates strong performance across regional dialects. BanglaIPA improves inference efficiency by leveraging a precomputed word-to-IPA mapping dictionary for previously observed words. The system is evaluated on the standard Bengali and six regional variations of the DUAL-IPA dataset. Experimental results show that BanglaIPA outperforms baseline IPA transcription models by 58.4-78.7% and achieves an overall mean word error rate of 11.4%, highlighting its robustness in phonetic transcription generation for the Bengali language.


翻译:尽管孟加拉语应用广泛,但目前仍缺乏能够有效支持标准语言及区域方言文本的鲁棒自动化国际音标(IPA)转录系统。现有方法在处理区域变体、数字表达时存在困难,且对未见过词汇的泛化能力较差。为突破这些局限,我们提出BanglaIPA——一种融合字符级词汇与词级对齐的新型IPA生成系统。该系统能准确处理孟加拉语数字,并在各区域方言上表现出强劲性能。BanglaIPA通过利用预计算的已见词到IPA映射词典来提升推理效率。我们在标准孟加拉语及DUAL-IPA数据集的六种区域变体上对该系统进行评估。实验结果表明,BanglaIPA较基线IPA转录模型性能提升58.4-78.7%,整体平均词错误率低至11.4%,彰显了其在孟加拉语语音转录生成方面的鲁棒性。

0
下载
关闭预览

相关内容

专知会员服务
26+阅读 · 2021年4月13日
【KDD2020】 鲁棒的跨语言知识图谱实体对齐
专知会员服务
27+阅读 · 2020年9月10日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
基于 rasa 搭建中文对话系统 | 公开课
AI研习社
16+阅读 · 2018年1月12日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
用R语言实现汉语转拼音及英语
数萃大数据
11+阅读 · 2017年9月18日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
专知会员服务
26+阅读 · 2021年4月13日
【KDD2020】 鲁棒的跨语言知识图谱实体对齐
专知会员服务
27+阅读 · 2020年9月10日
相关资讯
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
基于 rasa 搭建中文对话系统 | 公开课
AI研习社
16+阅读 · 2018年1月12日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
用R语言实现汉语转拼音及英语
数萃大数据
11+阅读 · 2017年9月18日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员