Despite being one of the most widely spoken languages globally, Bangla remains a low-resource language in the field of Natural Language Processing (NLP). Mainstream Automatic Speech Recognition (ASR) and Speaker Diarization systems for Bangla struggles when processing longform audio exceeding 3060 seconds. This paper presents a robust framework specifically engineered for extended Bangla content by leveraging preexisting models enhanced with novel optimization pipelines for the DL Sprint 4.0 contest. Our approach utilizes Voice Activity Detection (VAD) optimization and Connectionist Temporal Classification (CTC) segmentation via forced word alignment to maintain temporal accuracy and transcription integrity over long durations. Additionally, we employed several finetuning techniques and preprocessed the data using augmentation techniques and noise removal. By bridging the performance gap in complex, multi-speaker environments, this work provides a scalable solution for real-world, longform Bangla speech applications.


翻译:尽管孟加拉语是全球使用最广泛的语言之一,但在自然语言处理领域仍属于低资源语言。现有的主流孟加拉语自动语音识别与说话人日志系统在处理超过30-60秒的长音频时面临困难。本文提出一个专为长时孟加拉语内容设计的鲁棒性框架,该框架通过利用已有模型并结合为DL Sprint 4.0竞赛设计的新型优化流程来实现。我们的方法采用语音活动检测优化以及基于强制词对齐的连接时序分类分割技术,以在长时音频中保持时间精度与转录完整性。此外,我们应用了多种微调技术,并通过数据增强与降噪技术对数据进行了预处理。通过弥合复杂多说话人环境下的性能差距,本工作为现实世界中的长时孟加拉语语音应用提供了一个可扩展的解决方案。

0
下载
关闭预览

相关内容

【NTU博士论文】端到端鲁棒自动语音识别的最新进展
专知会员服务
12+阅读 · 2025年10月15日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
30+阅读 · 2024年3月22日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
基于 rasa 搭建中文对话系统 | 公开课
AI研习社
16+阅读 · 2018年1月12日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
《作战研究是实现战场人工智能潜力的关键》
专知会员服务
2+阅读 · 今天6:08
《军事训练与行动期间新鲜膳食营养保障》380页
专知会员服务
1+阅读 · 今天5:40
伊朗战争时间线:关键节点与袭击事件
专知会员服务
2+阅读 · 今天5:34
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
11+阅读 · 4月7日
无人机与僵局:俄乌战争难以突破
专知会员服务
4+阅读 · 4月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员