Singing voice synthesis (SVS) has seen remarkable advancements in recent years. However, compared to speech and general audio data, publicly available singing datasets remain limited. In practice, this data scarcity often leads to performance degradation in long-tail scenarios, such as imbalanced pitch distributions or rare singing styles. To mitigate these challenges, we propose uncertainty-based optimization to improve the training process of end-to-end SVS models. First, we introduce differentiable data augmentation in the adversarial training, which operates in a sample-wise manner to increase the prior uncertainty. Second, we incorporate a frame-level uncertainty prediction module that estimates the posterior uncertainty, enabling the model to allocate more learning capacity to low-confidence segments. Empirical results on the Opencpop and Ofuton-P, across Chinese and Japanese, demonstrate that our approach improves performance in various perspectives.


翻译:近年来,歌唱声音合成领域取得了显著进展。然而,与语音及通用音频数据相比,公开可用的歌唱数据集仍然有限。实践中,这种数据稀缺性常导致在长尾场景下性能下降,例如音高分布不平衡或罕见歌唱风格。为缓解这些挑战,我们提出基于不确定性的优化方法以改进端到端歌唱声音合成模型的训练过程。首先,我们在对抗训练中引入可微分数据增强,以样本级操作增加先验不确定性。其次,我们整合了帧级不确定性预测模块,用于估计后验不确定性,使模型能将更多学习能力分配到低置信度片段。在Opencpop和Ofuton-P数据集上(涵盖中文与日文)的实证结果表明,我们的方法在多个维度上提升了性能。

0
下载
关闭预览

相关内容

【WWW2024】GraphPro:推荐系统中的图预训练与提示学习
专知会员服务
23+阅读 · 2024年1月26日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
22+阅读 · 2021年4月11日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2025年12月29日
Arxiv
0+阅读 · 2025年12月27日
VIP会员
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员