We study permutation invariant training (PIT), which targets at the permutation ambiguity problem for speaker independent source separation models. We extend two state-of-the-art PIT strategies. First, we look at the two-stage speaker separation and tracking algorithm based on frame level PIT (tPIT) and clustering, which was originally proposed for the STFT domain, and we adapt it to work with waveforms and over a learned latent space. Further, we propose an efficient clustering loss scalable to waveform models. Second, we extend a recently proposed auxiliary speaker-ID loss with a deep feature loss based on "problem agnostic speech features", to reduce the local permutation errors made by the utterance level PIT (uPIT). Our results show that the proposed extensions help reducing permutation ambiguity. However, we also note that the studied STFT-based models are more effective at reducing permutation errors than waveform-based models, a perspective overlooked in recent studies.


翻译:我们研究变异性培训(变异性培训),该培训针对语言独立源分离模型的变异性模棱两可问题。我们扩展了两种最先进的PIT战略。首先,我们审视了最初为STFT域提议的基于框架级PIT(tPIT)和集群的两阶段语音分解和跟踪算法,并调整了该算法,以适应波形和已学过的潜在空间的工作。此外,我们提议了一种高效的组合损失损失可与波形模型相适应。第二,我们扩展了最近提出的具有深层特征损失的辅助语音-ID损失,其依据是“问题、不可知的语音特征特征”,以减少PIT(uPIT)在本地造成的变异性错误。我们的结果显示,拟议的扩展有助于减少变异性模糊性。但我们还注意到,所研究的STFT模型在减少变异性误差方面比波形模型更有效,在最近的研究中忽略了这一视角。

0
下载
关闭预览

相关内容

专知会员服务
46+阅读 · 2020年10月31日
近期必读的五篇KDD 2020【迁移学习 (TL) 】相关论文
专知会员服务
40+阅读 · 2020年8月25日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
112+阅读 · 2020年5月15日
零样本图像分类综述 : 十年进展
专知会员服务
128+阅读 · 2019年11月16日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
8+阅读 · 2018年11月27日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
1+阅读 · 32分钟前
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
1+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
0+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关VIP内容
Top
微信扫码咨询专知VIP会员