Building state-of-the-art text-to-speech (TTS) systems typically demands millions of hours of proprietary data and complex multi-stage architectures, creating substantial barriers for resource-constrained research teams. In this report, we present PilotTTS, a lightweight autoregressive TTS system that achieves competitive performance through minimalist architecture and rigorous data engineering. PilotTTS is trained on only 200K hours of data processed entirely with open-source tools. Specifically, our contributions are: (1) a reproducible multi-stage data processing pipeline covering quality assessment, label annotation, and filtering, and (2) a compact model architecture that employs Q-Former-based conditioning to decouple speaker identity from speaking style via cross-sample paired training. Within a unified framework, PilotTTS supports zero-shot voice cloning, emotion synthesis (11 categories), paralinguistic synthesis (4 categories), and Chinese dialect synthesis (14 dialects). On the Seed-TTS Eval benchmark, PilotTTS achieves the lowest WER of 1.50% on test-en, a CER of 0.87% on test-zh, and the highest speaker similarity on both test sets (0.862 and 0.815), outperforming systems trained on significantly larger datasets. We release the complete data pipeline recipe, pretrained weights, and code at https://github.com/AMAPVOICE/PilotTTS.


翻译:构建先进的文本转语音系统通常需要数百万小时的专有数据与复杂的多阶段架构,这为资源受限的研究团队设置了巨大障碍。本报告提出PilotTTS——一种轻量级自回归TTS系统,通过极简架构与严谨的数据工程实现了竞争性性能。PilotTTS仅使用20万小时数据训练,且全部处理流程均基于开源工具。具体而言,我们的贡献包括:(1) 一个可复现的多阶段数据处理流水线,涵盖质量评估、标签标注与过滤;(2) 一种紧凑型模型架构,采用基于Q-Former的条件控制机制,通过跨样本配对训练解耦说话人身份与说话风格。在统一框架下,PilotTTS支持零样本语音克隆、情感合成(11类)、副语言合成(4类)及中文方言合成(14种方言)。在Seed-TTS Eval基准测试中,PilotTTS在test-en集上达到1.50%的最低WER,在test-zh集上取得0.87%的CER,并在两个测试集上均获得最高说话人相似度(0.862与0.815),表现优于使用更大数据集训练的系统。我们在https://github.com/AMAPVOICE/PilotTTS 开源了完整数据流水线方案、预训练权重及代码。

0
下载
关闭预览

相关内容

迈向可控语音合成:大语言模型时代的综述
专知会员服务
24+阅读 · 2024年12月13日
《语音大语言模型》最新进展综述
专知会员服务
58+阅读 · 2024年10月8日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
【2023新书】神经文本到语音合成,214页pdf
专知会员服务
39+阅读 · 2023年6月9日
【EPFL博士论文】基于transformer的高效语音识别,162页pdf
专知会员服务
45+阅读 · 2023年2月18日
【微软亚研ICASSP 2022 教程】神经文本语音合成,107页ppt
专知会员服务
28+阅读 · 2022年5月25日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员