Deep speaker embeddings have become the leading method for encoding speaker identity in speaker recognition tasks. The embedding space should ideally capture the variations between all possible speakers, encoding the multiple acoustic aspects that make up a speaker's identity, whilst being robust to non-speaker acoustic variation. Deep speaker embeddings are normally trained discriminatively, predicting speaker identity labels on the training data. We hypothesise that additionally predicting speaker-related auxiliary variables -- such as age and nationality -- may yield representations that are better able to generalise to unseen speakers. We propose a framework for making use of auxiliary label information, even when it is only available for speech corpora mismatched to the target application. On a test set of US Supreme Court recordings, we show that by leveraging two additional forms of speaker attribute information derived respectively from the matched training data, and VoxCeleb corpus, we improve the performance of our deep speaker embeddings for both verification and diarization tasks, achieving a relative improvement of 26.2% in DER and 6.7% in EER compared to baselines using speaker labels only. This improvement is obtained despite the auxiliary labels having been scraped from the web and being potentially noisy.


翻译:深层语音嵌入器已成为在语音识别任务中编码发言者身份的主要方法。 嵌入空间最好能捕捉所有可能的发言者之间的变异,将构成发言者身份的多种声学因素编码起来,同时对非声学变异保持稳健。 深层语音嵌入器通常经过有区别的培训,在培训数据上预测发言者身份标签。 我们假设,另外预测与发言者有关的辅助变量 -- -- 如年龄和国籍 -- -- 可能产生更能向看不见的发言者概括化的表述。 我们提议了一个使用辅助标签信息的框架,即使仅用于与目标应用程序不匹配的语音公司。 在对美国最高法院的一组记录进行测试时,我们表明,通过利用另外两种形式的语音属性信息,分别来自匹配的培训数据以及VoxCelebposiro,我们提高了我们的深层语音嵌入器在核查和分解任务上的性能,从而实现仅使用语音标签的ER26.2%和6.7%与基线相对的改进。 尽管辅助标签已经从网络上废弃,而且可能已经变得焦燥。

0
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
111+阅读 · 2020年6月10日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
112+阅读 · 2020年5月15日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
8+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
已删除
将门创投
10+阅读 · 2018年5月2日
Arxiv
1+阅读 · 2021年4月17日
Arxiv
21+阅读 · 2019年3月25日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
10+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关资讯
已删除
将门创投
10+阅读 · 2018年5月2日
Top
微信扫码咨询专知VIP会员