This paper presents Transcribe-to-Diarize, a new approach for neural speaker diarization that uses an end-to-end (E2E) speaker-attributed automatic speech recognition (SA-ASR). The E2E SA-ASR is a joint model that was recently proposed for speaker counting, multi-talker speech recognition, and speaker identification from monaural audio that contains overlapping speech. Although the E2E SA-ASR model originally does not estimate any time-related information, we show that the start and end times of each word can be estimated with sufficient accuracy from the internal state of the E2E SA-ASR by adding a small number of learnable parameters. Similar to the target-speaker voice activity detection (TS-VAD)-based diarization method, the E2E SA-ASR model is applied to estimate speech activity of each speaker while it has the advantages of (i) handling unlimited number of speakers, (ii) leveraging linguistic information for speaker diarization, and (iii) simultaneously generating speaker-attributed transcriptions. Experimental results on the LibriCSS and AMI corpora show that the proposed method achieves significantly better diarization error rate than various existing speaker diarization methods when the number of speakers is unknown, and achieves a comparable performance to TS-VAD when the number of speakers is given in advance. The proposed method simultaneously generates speaker-attributed transcription with state-of-the-art accuracy.


翻译:虽然E2E SA-ASR模式最初没有估计任何与时间有关的信息,但我们显示,每个词的开始和结束时间都可以通过从E2E SA-ASR内部状态中足够精确地估计,方法是增加少量可学习参数。 类似于基于目标发言人语音活动探测(TS-VAD)的分化方法,E2E SA-ASR模式用于估计每个发言者的演讲活动,而E2E SA-ASR模式的优点是(一) 处理不受限制的发言者人数,(二) 利用发言者的语言信息进行分解,以及(三) 同时生成发言者所属的笔录。在LibCS-ASR和AMI 分化方法的实验结果中,在使用现有不为人数的分解方法时,在使用各种发言者的分解方法的分解率上,可以实现现有不为人知的发言者数字。

0
下载
关闭预览

相关内容

【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索
专知会员服务
14+阅读 · 2021年2月25日
【ICLR2020】五篇Open代码的GNN论文
专知会员服务
48+阅读 · 2019年10月2日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
0+阅读 · 2021年11月28日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 42分钟前
多智能体协作机制
专知会员服务
0+阅读 · 46分钟前
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关VIP内容
【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索
专知会员服务
14+阅读 · 2021年2月25日
【ICLR2020】五篇Open代码的GNN论文
专知会员服务
48+阅读 · 2019年10月2日
相关资讯
Top
微信扫码咨询专知VIP会员