SoulX-Singer: Towards High-Quality Zero-Shot Singing Voice Synthesis - 专知论文

会员服务 ·

0

合成 · 样本 · 零样本 · 系统 · 合成系统 ·

SoulX-Singer: Towards High-Quality Zero-Shot Singing Voice Synthesis

翻译：SoulX-Singer：迈向高质量零样本歌声合成

Jiale Qian,Hao Meng,Tian Zheng,Pengcheng Zhu,Haopeng Lin,Yuhang Dai,Hanke Xie,Wenxiao Cao,Ruixuan Shang,Jun Wu,Hongmei Liu,Hanlin Wen,Jian Zhao,Zhonglin Jiang,Yong Chen,Shunshun Yin,Ming Tao,Jianguo Wei,Lei Xie,Xinsheng Wang

from arxiv, Technical Report

While recent years have witnessed rapid progress in speech synthesis, open-source singing voice synthesis (SVS) systems still face significant barriers to industrial deployment, particularly in terms of robustness and zero-shot generalization. In this report, we introduce SoulX-Singer, a high-quality open-source SVS system designed with practical deployment considerations in mind. SoulX-Singer supports controllable singing generation conditioned on either symbolic musical scores (MIDI) or melodic representations, enabling flexible and expressive control in real-world production workflows. Trained on more than 42,000 hours of vocal data, the system supports Mandarin Chinese, English, and Cantonese and consistently achieves state-of-the-art synthesis quality across languages under diverse musical conditions. Furthermore, to enable reliable evaluation of zero-shot SVS performance in practical scenarios, we construct SoulX-Singer-Eval, a dedicated benchmark with strict training-test disentanglement, facilitating systematic assessment in zero-shot settings.

翻译：尽管近年来语音合成领域取得了快速进展，但开源歌声合成系统在工业部署方面仍面临显著障碍，尤其是在鲁棒性和零样本泛化能力方面。本报告介绍了SoulX-Singer，一个兼顾实际部署考量而设计的高质量开源歌声合成系统。SoulX-Singer支持基于符号乐谱或旋律表征的可控歌声生成，能够在实际生产流程中实现灵活且富有表现力的控制。该系统在超过42,000小时的人声数据上进行训练，支持普通话、英语和粤语，并在多样化的音乐条件下持续实现跨语言的顶尖合成质量。此外，为在实际场景中可靠评估零样本歌声合成性能，我们构建了具有严格训练-测试解耦特性的专用基准SoulX-Singer-Eval，以促进零样本场景下的系统性评估。

0

相关内容

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

迈向可控语音合成：大语言模型时代的综述

迈向可控语音合成：大语言模型时代的综述

专知会员服务

24+阅读 · 2024年12月13日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

【2023新书】神经文本到语音合成，214页pdf

【2023新书】神经文本到语音合成，214页pdf

专知会员服务

39+阅读 · 2023年6月9日

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

专知会员服务

41+阅读 · 2022年9月19日

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日

基于深度学习的语音合成与转换技术综述

专知会员服务

31+阅读 · 2021年8月16日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

量子位

10+阅读 · 2019年9月12日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

量子位

19+阅读 · 2018年12月23日

【语音识别】从入门到精通——最全干货大合集！

【语音识别】从入门到精通——最全干货大合集！

专知

20+阅读 · 2018年11月5日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

手性磷酸和过渡金属共催化的串联反应研究：高对映选择性地合成杂环化合物

国家自然科学基金

1+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

被动声纳中的导向自校正鲁棒自适应波束形成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合信号Sigma-Delta调制器设计自动化关键算法研究与软件实现

国家自然科学基金

0+阅读 · 2014年12月31日

低功耗数字化高集成度无线通信SoC芯片关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

StyleStream: Real-Time Zero-Shot Voice Style Conversion

Arxiv

0+阅读 · 2月23日

Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Arxiv

0+阅读 · 2月19日

HiFi-Glot: High-Fidelity Neural Formant Synthesis with Differentiable Resonant Filters

Arxiv

0+阅读 · 2月16日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 2月14日

SoulX-FlashHead: Oracle-guided Generation of Infinite Real-time Streaming Talking Heads

Arxiv

0+阅读 · 2月11日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

Tutti: Expressive Multi-Singer Synthesis via Structure-Level Timbre Control and Vocal Texture Modeling

Arxiv

0+阅读 · 2月9日

SoulX-FlashHead: Oracle-guided Generation of Infinite Real-time Streaming Talking Heads

Arxiv

0+阅读 · 2月7日

LipSody: Lip-to-Speech Synthesis with Enhanced Prosody Consistency

Arxiv

0+阅读 · 2月2日

EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

5+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

6+阅读 · 6月16日

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

10+阅读 · 6月16日

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

21+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

8+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

9+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

9+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

10+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

9+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

相关VIP内容

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

迈向可控语音合成：大语言模型时代的综述

迈向可控语音合成：大语言模型时代的综述

专知会员服务

24+阅读 · 2024年12月13日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

【2023新书】神经文本到语音合成，214页pdf

【2023新书】神经文本到语音合成，214页pdf

专知会员服务

39+阅读 · 2023年6月9日

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

专知会员服务

41+阅读 · 2022年9月19日

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日

基于深度学习的语音合成与转换技术综述

专知会员服务

31+阅读 · 2021年8月16日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

多模态代码智能综述：从视觉输入到可执行代码系统

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

相关资讯

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

量子位

10+阅读 · 2019年9月12日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

量子位

19+阅读 · 2018年12月23日

【语音识别】从入门到精通——最全干货大合集！

【语音识别】从入门到精通——最全干货大合集！

专知

20+阅读 · 2018年11月5日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

相关论文

StyleStream: Real-Time Zero-Shot Voice Style Conversion

Arxiv

0+阅读 · 2月23日

Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Arxiv

0+阅读 · 2月19日

HiFi-Glot: High-Fidelity Neural Formant Synthesis with Differentiable Resonant Filters

Arxiv

0+阅读 · 2月16日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 2月14日

SoulX-FlashHead: Oracle-guided Generation of Infinite Real-time Streaming Talking Heads

Arxiv

0+阅读 · 2月11日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

Tutti: Expressive Multi-Singer Synthesis via Structure-Level Timbre Control and Vocal Texture Modeling

Arxiv

0+阅读 · 2月9日

SoulX-FlashHead: Oracle-guided Generation of Infinite Real-time Streaming Talking Heads

Arxiv

0+阅读 · 2月7日

LipSody: Lip-to-Speech Synthesis with Enhanced Prosody Consistency

Arxiv

0+阅读 · 2月2日

EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis

Arxiv

0+阅读 · 1月30日

相关基金

手性磷酸和过渡金属共催化的串联反应研究：高对映选择性地合成杂环化合物

国家自然科学基金

1+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

被动声纳中的导向自校正鲁棒自适应波束形成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合信号Sigma-Delta调制器设计自动化关键算法研究与软件实现

国家自然科学基金

0+阅读 · 2014年12月31日

低功耗数字化高集成度无线通信SoC芯片关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员