Neural Multi-Speaker Voice Cloning for Nepali in Low-Resource Settings - 专知论文

会员服务 ·

0

低资源 · 合成 · 损失 · 损失函数 · 嵌入 ·

Neural Multi-Speaker Voice Cloning for Nepali in Low-Resource Settings

翻译：面向低资源场景的尼泊尔语神经多说话人语音克隆

Aayush M. Shrestha,Aditya Bajracharya,Projan Shakya,Dinesh B. Kshatri

from arxiv, 16 pages with appendix included

This research presents a few-shot voice cloning system for Nepali speakers, designed to synthesize speech in a specific speaker's voice from Devanagari text using minimal data. Voice cloning in Nepali remains largely unexplored due to its low-resource nature. To address this, we constructed separate datasets: untranscribed audio for training a speaker encoder and paired text-audio data for training a Tacotron2-based synthesizer. The speaker encoder, optimized with Generative End2End loss, generates embeddings that capture the speaker's vocal identity, validated through Uniform Manifold Approximation and Projection (UMAP) for dimension reduction visualizations. These embeddings are fused with Tacotron2's text embeddings to produce mel-spectrograms, which are then converted into audio using a WaveRNN vocoder. Audio data were collected from various sources, including self-recordings, and underwent thorough preprocessing for quality and alignment. Training was performed using mel and gate loss functions under multiple hyperparameter settings. The system effectively clones speaker characteristics even for unseen voices, demonstrating the feasibility of few-shot voice cloning for the Nepali language and establishing a foundation for personalized speech synthesis in low-resource scenarios.

翻译：本研究提出了一种面向尼泊尔语说话人的少样本语音克隆系统，旨在利用少量数据，根据天城文文本合成具有特定说话人音色的语音。由于尼泊尔语属于低资源语言，其语音克隆研究在很大程度上尚未得到充分探索。为解决此问题，我们构建了独立的数据集：用于训练说话人编码器的未转录音频，以及用于训练基于Tacotron2的合成器的配对文本-音频数据。该说话人编码器通过生成式端到端损失函数进行优化，可生成捕捉说话人声学身份的嵌入向量，并通过均匀流形逼近与投影（UMAP）进行降维可视化验证。这些嵌入向量与Tacotron2的文本嵌入融合，以生成梅尔频谱图，随后使用WaveRNN声码器将其转换为音频。音频数据采集自多种来源（包括自行录制），并经过严格的预处理以确保质量与对齐。训练过程在多种超参数设置下，采用梅尔损失函数和门控损失函数进行。该系统即使对未见过的说话人声音也能有效克隆其声学特征，证明了尼泊尔语少样本语音克隆的可行性，并为低资源场景下的个性化语音合成奠定了基础。

0

相关内容

低资源

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

专知会员服务

41+阅读 · 2022年9月19日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

专知会员服务

24+阅读 · 2020年3月9日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

专知会员服务

21+阅读 · 2019年12月12日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

谷歌开发者

16+阅读 · 2018年11月6日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于脑电信号的藏语拉萨话韵律认知理论研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向连续语音的哈萨克语关键词识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Making Large Language Models Speak Tulu: Structured Prompting for an Extremely Low-Resource Language

Arxiv

0+阅读 · 2月17日

Equipping LLM with Directional Multi-Talker Speech Understanding Capabilities

Arxiv

0+阅读 · 2月6日

Voice-Based Chatbots for English Speaking Practice in Multilingual Low-Resource Indian Schools: A Multi-Stakeholder Study

Arxiv

0+阅读 · 2月6日

Enabling Automatic Disordered Speech Recognition: An Impaired Speech Dataset in the Akan Language

Arxiv

0+阅读 · 2月5日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition

Arxiv

0+阅读 · 2月3日

Speaking Without Sound: Multi-speaker Silent Speech Voicing with Facial Inputs Only

Arxiv

0+阅读 · 2月2日

Multi-Speaker Conversational Audio Deepfake: Taxonomy, Dataset and Pilot Study

Arxiv

0+阅读 · 1月30日

Stuttering-Aware Automatic Speech Recognition for Indonesian Language

Arxiv

0+阅读 · 1月14日

Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

2+阅读 · 28分钟前

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

3+阅读 · 43分钟前

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

2+阅读 · 51分钟前

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

3+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

4+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

3+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

3+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

4+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

9+阅读 · 4月22日

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

8+阅读 · 4月22日

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

6+阅读 · 4月22日

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

9+阅读 · 4月22日

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

7+阅读 · 4月22日

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

5+阅读 · 4月22日

相关VIP内容

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

专知会员服务

41+阅读 · 2022年9月19日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

专知会员服务

24+阅读 · 2020年3月9日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

专知会员服务

21+阅读 · 2019年12月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《压缩式分布式交互仿真标准》120页

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军条令《海军陆战队规划流程（2026版）》

《电子战数据交换模型研究报告》

相关资讯

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

谷歌开发者

16+阅读 · 2018年11月6日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

相关论文

Making Large Language Models Speak Tulu: Structured Prompting for an Extremely Low-Resource Language

Arxiv

0+阅读 · 2月17日

Equipping LLM with Directional Multi-Talker Speech Understanding Capabilities

Arxiv

0+阅读 · 2月6日

Voice-Based Chatbots for English Speaking Practice in Multilingual Low-Resource Indian Schools: A Multi-Stakeholder Study

Arxiv

0+阅读 · 2月6日

Enabling Automatic Disordered Speech Recognition: An Impaired Speech Dataset in the Akan Language

Arxiv

0+阅读 · 2月5日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition

Arxiv

0+阅读 · 2月3日

Speaking Without Sound: Multi-speaker Silent Speech Voicing with Facial Inputs Only

Arxiv

0+阅读 · 2月2日

Multi-Speaker Conversational Audio Deepfake: Taxonomy, Dataset and Pilot Study

Arxiv

0+阅读 · 1月30日

Stuttering-Aware Automatic Speech Recognition for Indonesian Language

Arxiv

0+阅读 · 1月14日

Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio

Arxiv

0+阅读 · 1月13日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于脑电信号的藏语拉萨话韵律认知理论研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向连续语音的哈萨克语关键词识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员