Speech conveys not only linguistic information but also rich non-verbal vocal events such as laughing and crying. While semantic transcription is well-studied, the precise localization of non-verbal events remains a critical yet under-explored challenge. Current methods suffer from insufficient task definitions with limited category coverage and ambiguous temporal granularity. They also lack standardized evaluation frameworks, hindering the development of downstream applications. To bridge this gap, we first develop a refined taxonomy of 21 vocal events, with a new categorization into discrete (standalone) versus continuous (mixed with speech) types. Based on the refined taxonomy, we introduce WESR-Bench, an expert-annotated evaluation set (900+ utterances) with a novel position-aware protocol that disentangles ASR errors from event detection, enabling precise localization measurement for both discrete and continuous events. We also build a strong baseline by constructing a 1,700+ hour corpus, and train specialized models, surpassing both open-source audio-language models and commercial APIs while preserving ASR quality. We anticipate that WESR will serve as a foundational resource for future research in modeling rich, real-world auditory scenes.


翻译:语音不仅传递语言信息,还包含丰富的非语言声音事件,如笑声和哭声。尽管语义转录已得到充分研究,但非语言事件的精确定位仍是一个关键且尚未深入探索的挑战。现有方法存在任务定义不足的问题,表现为类别覆盖有限和时间粒度模糊。同时,它们缺乏标准化的评估框架,阻碍了下游应用的发展。为弥补这一空白,我们首先构建了一个包含21类声音事件的精细化分类体系,并提出了离散型(独立发生)与连续型(与语音混合)的新分类方式。基于此分类体系,我们推出了WESR-Bench——一个由专家标注的评估数据集(包含900余条话语),采用创新的位置感知标注协议,将语音识别错误与事件检测进行解耦,从而实现对离散和连续事件的精确定位评估。我们还通过构建1,700余小时的语料库建立了强基线模型,并训练了专用模型,在保持语音识别质量的同时,性能超越了开源音频语言模型和商业API。我们预期WESR将成为未来建模丰富真实听觉场景研究的基础资源。

0
下载
关闭预览

相关内容

【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员