MOSS-TTS Technical Report - 专知论文

会员服务 ·

0

MOSS-TTS Technical Report

翻译：MOSS-TTS技术报告

Yitian Gong,Botian Jiang,Yiwei Zhao,Yucheng Yuan,Kuangwei Chen,Yaozhou Jiang,Cheng Chang,Dong Hong,Mingshu Chen,Ruixiao Li,Yiyang Zhang,Yang Gao,Hanfu Chen,Ke Chen,Songlin Wang,Xiaogui Yang,Yuqian Zhang,Kexin Huang,ZhengYuan Lin,Kang Yu,Ziqi Chen,Jin Wang,Zhaoye Fei,Qinyuan Cheng,Shimin Li,Xipeng Qiu

from arxiv, Project page: https://github.com/OpenMOSS/MOSS-TTS

This technical report presents MOSS-TTS, a speech generation foundation model built on a scalable recipe: discrete audio tokens, autoregressive modeling, and large-scale pretraining. Built on MOSS-Audio-Tokenizer, a causal Transformer tokenizer that compresses 24 kHz audio to 12.5 fps with variable-bitrate RVQ and unified semantic-acoustic representations, we release two complementary generators: MOSS-TTS, which emphasizes structural simplicity, scalability, and long-context/control-oriented deployment, and MOSS-TTS-Local-Transformer, which introduces a frame-local autoregressive module for higher modeling efficiency, stronger speaker preservation, and a shorter time to first audio. Across multilingual and open-domain settings, MOSS-TTS supports zero-shot voice cloning, token-level duration control, phoneme-/pinyin-level pronunciation control, smooth code-switching, and stable long-form generation. This report summarizes the design, training recipe, and empirical characteristics of the released models.

翻译：本技术报告介绍了MOSS-TTS，一种基于可扩展方案（离散音频token、自回归建模和大规模预训练）构建的语音生成基础模型。基于MOSS-Audio-Tokenizer（一种因果Transformer分词器，通过可变比特率RVQ和统一语义-声学表征将24 kHz音频压缩至12.5 fps），我们发布了两种互补的生成器：MOSS-TTS（强调结构简洁性、可扩展性及面向长上下文/控制的部署）和MOSS-TTS-Local-Transformer（引入帧局部自回归模块，以提升建模效率、增强说话人保留能力并缩短首段音频生成时间）。在多语言和开放域场景下，MOSS-TTS支持零样本语音克隆、token级时长控制、音素级/拼音级发音控制、流畅的语种码切换以及稳定的长文本生成。本报告总结了所发布模型的设计方案、训练流程及实验特性。

0

相关内容

美国防部《模块化开放式系统方法（MOSA）实施指南》最新84页

美国防部《模块化开放式系统方法（MOSA）实施指南》最新84页

专知会员服务

102+阅读 · 2025年3月11日

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

专知会员服务

14+阅读 · 2024年11月14日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

DARPA项目总结报告《少标签学习》2023最新51页技术报告，美国空军研究实验室

DARPA项目总结报告《少标签学习》2023最新51页技术报告，美国空军研究实验室

专知会员服务

63+阅读 · 2023年5月10日

《TextCycleGAN 技术报告》

《TextCycleGAN 技术报告》

专知会员服务

34+阅读 · 2023年5月4日

《多模态传感器融合与深度学习》美海军研究实验室19页报告

《多模态传感器融合与深度学习》美海军研究实验室19页报告

专知会员服务

117+阅读 · 2023年4月1日

《自适应系统设计建模》美国MITRE公司、美安全局(NSA)81页技术报告

《自适应系统设计建模》美国MITRE公司、美安全局(NSA)81页技术报告

专知会员服务

23+阅读 · 2022年11月3日

推荐！【中文版】美国空军研究实验室《SNOWCAT和CAVA：与AUTOML和知识库互动的可视化工具》32页技术总结报告

推荐！【中文版】美国空军研究实验室《SNOWCAT和CAVA：与AUTOML和知识库互动的可视化工具》32页技术总结报告

专知会员服务

58+阅读 · 2022年7月10日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知会员服务

46+阅读 · 2020年8月9日

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

34+阅读 · 2022年10月26日

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

专知

25+阅读 · 2022年10月3日

推荐！【中文版】美国海军研究实验室《将机器学习异常检测技术应用于美国海军空间系统运行》43页技术报告

推荐！【中文版】美国海军研究实验室《将机器学习异常检测技术应用于美国海军空间系统运行》43页技术报告

专知

33+阅读 · 2022年7月13日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

专知

16+阅读 · 2019年5月29日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

高精度模拟信号处理前端关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于声光光谱成像的反激光窃听告警系统关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

Massive MIMO 系统中接收端低复杂度检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

SiC MOSFET功率器件高速驱动研究

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于臭氧技术的Ge基高介电常数栅介质MOS器件的基础研究：界面特性、栅电荷分布及起源、迁移率散射机制

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

SiC MOS器件界面缺陷及其钝化研究

国家自然科学基金

0+阅读 · 2014年12月31日

40纳米工艺MOSFET器件毫米波建模和低功耗电路设计

国家自然科学基金

0+阅读 · 2014年12月31日

MiMo-Embodied: X-Embodied Foundation Model Technical Report

Arxiv

0+阅读 · 4月28日

act: Technical report

Arxiv

0+阅读 · 4月3日

SpecXMaster Technical Report

Arxiv

0+阅读 · 3月26日

Composer 2 Technical Report

Arxiv

0+阅读 · 3月26日

Leum-VL Technical Report

Arxiv

0+阅读 · 3月20日

MOSS-TTSD: Text to Spoken Dialogue Generation

Arxiv

0+阅读 · 3月20日

GLM-OCR Technical Report

Arxiv

0+阅读 · 3月11日

xLLM Technical Report

Arxiv

0+阅读 · 3月3日

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Arxiv

0+阅读 · 3月2日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

2+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

2+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

4+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

3+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

3+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

美国防部《模块化开放式系统方法（MOSA）实施指南》最新84页

美国防部《模块化开放式系统方法（MOSA）实施指南》最新84页

专知会员服务

102+阅读 · 2025年3月11日

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

专知会员服务

14+阅读 · 2024年11月14日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

DARPA项目总结报告《少标签学习》2023最新51页技术报告，美国空军研究实验室

DARPA项目总结报告《少标签学习》2023最新51页技术报告，美国空军研究实验室

专知会员服务

63+阅读 · 2023年5月10日

《TextCycleGAN 技术报告》

《TextCycleGAN 技术报告》

专知会员服务

34+阅读 · 2023年5月4日

《多模态传感器融合与深度学习》美海军研究实验室19页报告

《多模态传感器融合与深度学习》美海军研究实验室19页报告

专知会员服务

117+阅读 · 2023年4月1日

《自适应系统设计建模》美国MITRE公司、美安全局(NSA)81页技术报告

《自适应系统设计建模》美国MITRE公司、美安全局(NSA)81页技术报告

专知会员服务

23+阅读 · 2022年11月3日

推荐！【中文版】美国空军研究实验室《SNOWCAT和CAVA：与AUTOML和知识库互动的可视化工具》32页技术总结报告

推荐！【中文版】美国空军研究实验室《SNOWCAT和CAVA：与AUTOML和知识库互动的可视化工具》32页技术总结报告

专知会员服务

58+阅读 · 2022年7月10日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知会员服务

46+阅读 · 2020年8月9日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

34+阅读 · 2022年10月26日

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

专知

25+阅读 · 2022年10月3日

推荐！【中文版】美国海军研究实验室《将机器学习异常检测技术应用于美国海军空间系统运行》43页技术报告

推荐！【中文版】美国海军研究实验室《将机器学习异常检测技术应用于美国海军空间系统运行》43页技术报告

专知

33+阅读 · 2022年7月13日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

专知

16+阅读 · 2019年5月29日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

相关论文

MiMo-Embodied: X-Embodied Foundation Model Technical Report

Arxiv

0+阅读 · 4月28日

act: Technical report

Arxiv

0+阅读 · 4月3日

SpecXMaster Technical Report

Arxiv

0+阅读 · 3月26日

Composer 2 Technical Report

Arxiv

0+阅读 · 3月26日

Leum-VL Technical Report

Arxiv

0+阅读 · 3月20日

MOSS-TTSD: Text to Spoken Dialogue Generation

Arxiv

0+阅读 · 3月20日

GLM-OCR Technical Report

Arxiv

0+阅读 · 3月11日

xLLM Technical Report

Arxiv

0+阅读 · 3月3日

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Arxiv

0+阅读 · 3月2日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

相关基金

高精度模拟信号处理前端关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于声光光谱成像的反激光窃听告警系统关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

Massive MIMO 系统中接收端低复杂度检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

SiC MOSFET功率器件高速驱动研究

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于臭氧技术的Ge基高介电常数栅介质MOS器件的基础研究：界面特性、栅电荷分布及起源、迁移率散射机制

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

SiC MOS器件界面缺陷及其钝化研究

国家自然科学基金

0+阅读 · 2014年12月31日

40纳米工艺MOSFET器件毫米波建模和低功耗电路设计

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员