Automatic speech recognition (ASR) for conversational speech remains challenging due to the limited availability of large-scale, well-annotated multi-speaker dialogue data and the complex temporal dynamics of natural interactions. Speaker-aware simulated conversations (SASC) offer an effective data augmentation strategy by transforming single-speaker recordings into realistic multi-speaker dialogues. However, prior work has primarily focused on English data, leaving questions about the applicability to lower-resource languages. In this paper, we adapt and implement the SASC framework for Hungarian conversational ASR. We further propose C-SASC, an extended variant that incorporates pause modeling conditioned on utterance duration, enabling a more faithful representation of local temporal dependencies observed in human conversation while retaining the simplicity and efficiency of the original approach. We generate synthetic Hungarian dialogues from the BEA-Large corpus and combine them with real conversational data for ASR training. Both SASC and C-SASC are evaluated extensively under a wide range of simulation configurations, using conversational statistics derived from CallHome, BEA-Dialogue, and GRASS corpora. Experimental results show that speaker-aware conversational simulation consistently improves recognition performance over naive concatenation-based augmentation. While the additional duration conditioning in C-SASC yields modest but systematic gains--most notably in character-level error rates--its effectiveness depends on the match between source conversational statistics and the target domain. Overall, our findings confirm the robustness of speaker-aware conversational simulation for Hungarian ASR and highlight the benefits and limitations of increasingly detailed temporal modeling in synthetic dialogue generation.


翻译:对话语音的自动语音识别(ASR)仍面临挑战,主要原因在于大规模、高质量标注的多说话人对话数据稀缺,以及自然交互中复杂的时间动态特性。说话人感知模拟对话通过将单人语音录音转换为真实的多说话人对话,提供了一种有效的数据增强策略。然而,现有研究主要集中于英语数据,其在低资源语言中的适用性尚不明确。本文针对匈牙利语对话ASR任务,对SASC框架进行了适配与实现。我们进一步提出了C-SASC——一种扩展变体,该模型通过结合基于语句时长的停顿建模,能够更准确地呈现人类对话中观察到的局部时间依赖关系,同时保持了原始方法的简洁性与高效性。我们基于BEA-Large语料库生成匈牙利语合成对话数据,并将其与真实对话数据结合用于ASR训练。通过使用源自CallHome、BEA-Dialogue和GRASS语料库的对话统计数据,我们在多种模拟配置下对SASC和C-SASC进行了全面评估。实验结果表明,相较于基于简单拼接的数据增强方法,说话人感知对话模拟能持续提升识别性能。虽然C-SASC中增加的时长条件建模带来了有限但系统性的性能提升(尤其在字符错误率指标上),但其有效性取决于源对话统计数据与目标领域的匹配程度。总体而言,我们的研究证实了说话人感知对话模拟在匈牙利语ASR中的鲁棒性,并揭示了合成对话生成中逐步精细化时间建模的优势与局限性。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【CUHK博士论文】提升自动语音识别系统的效率与可靠性
专知会员服务
11+阅读 · 2025年4月15日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
【EPFL博士论文】基于transformer的高效语音识别,162页pdf
专知会员服务
45+阅读 · 2023年2月18日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
SMP 2019 第三届中文人机对话技术评测顺利落幕
哈工大SCIR
12+阅读 · 2019年8月19日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员