The Speaker Diarization and Recognition (SDR) task aims to predict "who spoke when and what" within an audio clip, which is a crucial task in various real-world multi-speaker scenarios such as meeting transcription and dialogue systems. Existing SDR systems typically adopt a cascaded framework, combining multiple modules such as speaker diarization (SD) and automatic speech recognition (ASR). The cascaded systems suffer from several limitations, such as error propagation, difficulty in handling overlapping speech, and lack of joint optimization for exploring the synergy between SD and ASR tasks. To address these limitations, we introduce SpeakerLM, a unified multimodal large language model for SDR that jointly performs SD and ASR in an end-to-end manner. Moreover, to facilitate diverse real-world scenarios, we incorporate a flexible speaker registration mechanism into SpeakerLM, enabling SDR under different speaker registration settings. SpeakerLM is progressively developed with a multi-stage training strategy on large-scale real data. Extensive experiments show that SpeakerLM demonstrates strong data scaling capability and generalizability, outperforming state-of-the-art cascaded baselines on both in-domain and out-of-domain public SDR benchmarks. Furthermore, experimental results show that the proposed speaker registration mechanism effectively ensures robust SDR performance of SpeakerLM across diverse speaker registration conditions and varying numbers of registered speakers.


翻译:说话人日志与识别(SDR)任务旨在预测音频片段中“谁在何时说了什么”,这是会议转录、对话系统等多种现实世界多说话人场景中的关键任务。现有的SDR系统通常采用级联框架,结合说话人日志(SD)和自动语音识别(ASR)等多个模块。此类级联系统存在若干局限性,例如错误传播、处理重叠语音困难,以及缺乏联合优化以探索SD与ASR任务间的协同作用。为应对这些局限,我们提出了SpeakerLM,一个用于SDR的统一多模态大语言模型,能够以端到端方式联合执行SD和ASR。此外,为适应多样化的现实场景,我们在SpeakerLM中引入了灵活的说话人注册机制,使其能够在不同的说话人注册设置下进行SDR。SpeakerLM通过在大规模真实数据上采用多阶段训练策略逐步开发而成。大量实验表明,SpeakerLM展现出强大的数据扩展能力和泛化性,在领域内和领域外的公开SDR基准测试中均优于最先进的级联基线方法。此外,实验结果证明,所提出的说话人注册机制能有效确保SpeakerLM在不同说话人注册条件及不同注册说话人数量下的稳健SDR性能。

0
下载
关闭预览

相关内容

端到端语音到语音翻译的优化方法综述
专知会员服务
7+阅读 · 2025年6月10日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
NLP实践:对话系统技术原理和应用
AI100
34+阅读 · 2019年3月20日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
端到端语音到语音翻译的优化方法综述
专知会员服务
7+阅读 · 2025年6月10日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员