Recent end-to-end spoken dialogue systems leverage speech tokenizers and neural audio codecs to enable LLMs to operate directly on discrete speech representations. However, these models often exhibit limited speaker identity preservation, hindering personalized voice interaction. In this work, we present Chroma 1.0, the first open-source, real-time, end-to-end spoken dialogue model that achieves both low-latency interaction and high-fidelity personalized voice cloning. Chroma achieves sub-second end-to-end latency through an interleaved text-audio token schedule (1:2) that supports streaming generation, while maintaining high-quality personalized voice synthesis across multi-turn conversations. Our experimental results demonstrate that Chroma achieves a 10.96% relative improvement in speaker similarity over the human baseline, with a Real-Time Factor (RTF) of 0.43, while maintaining strong reasoning and dialogue capabilities. Our code and models are publicly available at https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma and https://huggingface.co/FlashLabs/Chroma-4B .


翻译:最近的端到端口语对话系统利用语音分词器和神经音频编解码器,使大语言模型能够直接在离散语音表示上操作。然而,这些模型通常在说话人身份保持方面表现有限,阻碍了个性化语音交互的发展。在本工作中,我们提出了Chroma 1.0,这是首个开源的、实时的、端到端的口语对话模型,它同时实现了低延迟交互和高保真度的个性化语音克隆。Chroma通过一种支持流式生成的交错文本-音频令牌调度方案(1:2),实现了亚秒级的端到端延迟,同时在多轮对话中保持了高质量的个性化语音合成。我们的实验结果表明,Chroma在说话人相似度上相对于人类基线取得了10.96%的相对提升,其实时因子为0.43,同时保持了强大的推理和对话能力。我们的代码和模型已在 https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma 和 https://huggingface.co/FlashLabs/Chroma-4B 上公开。

0
下载
关闭预览

相关内容

《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
【NAACL 2024】在大规模语言模型时代的人机交互,192页ppt
专知会员服务
60+阅读 · 2024年6月18日
不可错过!斯坦福《语音语言处理》技术课程
专知会员服务
41+阅读 · 2022年5月2日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
达摩院基于元学习的对话系统
专知会员服务
25+阅读 · 2021年1月1日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
NLP实践:对话系统技术原理和应用
AI100
34+阅读 · 2019年3月20日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员