This technical report presents MOSS-TTS, a speech generation foundation model built on a scalable recipe: discrete audio tokens, autoregressive modeling, and large-scale pretraining. Built on MOSS-Audio-Tokenizer, a causal Transformer tokenizer that compresses 24 kHz audio to 12.5 fps with variable-bitrate RVQ and unified semantic-acoustic representations, we release two complementary generators: MOSS-TTS, which emphasizes structural simplicity, scalability, and long-context/control-oriented deployment, and MOSS-TTS-Local-Transformer, which introduces a frame-local autoregressive module for higher modeling efficiency, stronger speaker preservation, and a shorter time to first audio. Across multilingual and open-domain settings, MOSS-TTS supports zero-shot voice cloning, token-level duration control, phoneme-/pinyin-level pronunciation control, smooth code-switching, and stable long-form generation. This report summarizes the design, training recipe, and empirical characteristics of the released models.


翻译:本技术报告介绍了MOSS-TTS,一种基于可扩展方案(离散音频token、自回归建模和大规模预训练)构建的语音生成基础模型。基于MOSS-Audio-Tokenizer(一种因果Transformer分词器,通过可变比特率RVQ和统一语义-声学表征将24 kHz音频压缩至12.5 fps),我们发布了两种互补的生成器:MOSS-TTS(强调结构简洁性、可扩展性及面向长上下文/控制的部署)和MOSS-TTS-Local-Transformer(引入帧局部自回归模块,以提升建模效率、增强说话人保留能力并缩短首段音频生成时间)。在多语言和开放域场景下,MOSS-TTS支持零样本语音克隆、token级时长控制、音素级/拼音级发音控制、流畅的语种码切换以及稳定的长文本生成。本报告总结了所发布模型的设计方案、训练流程及实验特性。

0
下载
关闭预览

相关内容

《TextCycleGAN 技术报告》
专知会员服务
34+阅读 · 2023年5月4日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月3日
Arxiv
0+阅读 · 3月26日
Arxiv
0+阅读 · 3月26日
Arxiv
0+阅读 · 3月20日
Arxiv
0+阅读 · 3月11日
Arxiv
0+阅读 · 3月3日
Arxiv
18+阅读 · 2024年12月27日
VIP会员
相关主题
最新内容
重新思考无人机时代的生存能力
专知会员服务
2+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
2+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
3+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关论文
Arxiv
0+阅读 · 4月3日
Arxiv
0+阅读 · 3月26日
Arxiv
0+阅读 · 3月26日
Arxiv
0+阅读 · 3月20日
Arxiv
0+阅读 · 3月11日
Arxiv
0+阅读 · 3月3日
Arxiv
18+阅读 · 2024年12月27日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员