We present VoXtream, a fully autoregressive, zero-shot streaming text-to-speech (TTS) system for real-time use that begins speaking from the first word. VoXtream directly maps incoming phonemes to audio tokens using a monotonic alignment scheme and a limited look-ahead that does not delay onset. Built around an incremental phoneme transformer, a temporal transformer predicting semantic and duration tokens, and a depth transformer producing acoustic tokens, VoXtream achieves, to our knowledge, the lowest initial delay among publicly available streaming TTS: 102 ms on GPU. Despite being trained on a mid-scale 9k-hour corpus, it matches or surpasses larger baselines on several metrics, while delivering competitive quality in both output- and full-streaming settings. Demo and code are available at https://herimor.github.io/voxtream.


翻译:本文提出VoXtream,一种完全自回归、零样本的流式文本转语音(TTS)系统,适用于实时场景,能够从首个单词开始即时发声。VoXtream通过单调对齐方案与不延迟起始的有限前瞻机制,直接将输入音素映射为音频标记。该系统以增量音素Transformer、预测语义与时长标记的时间Transformer,以及生成声学标记的深度Transformer为核心架构。据我们所知,VoXtream在公开可用的流式TTS系统中实现了最低的初始延迟:在GPU上仅为102毫秒。尽管仅使用中等规模的9千小时语料库进行训练,其在多项指标上达到或超越了更大规模的基线模型,同时在输出流式与全流式设置下均展现出具有竞争力的语音质量。演示与代码发布于https://herimor.github.io/voxtream。

0
下载
关闭预览

相关内容

迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
【2023新书】神经文本到语音合成,214页pdf
专知会员服务
39+阅读 · 2023年6月9日
【微软亚研ICASSP 2022 教程】神经文本语音合成,107页ppt
专知会员服务
28+阅读 · 2022年5月25日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
10+阅读 · 2018年1月8日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员