In this work, we present Covo-Audio, a 7B-parameter end-to-end LALM that directly processes continuous audio inputs and generates audio outputs within a single unified architecture. Through large-scale curated pretraining and targeted post-training, Covo-Audio achieves state-of-the-art or competitive performance among models of comparable scale across a broad spectrum of tasks, including speech-text modeling, spoken dialogue, speech understanding, audio understanding, and full-duplex voice interaction. Extensive evaluations demonstrate that the pretrained foundation model exhibits strong speech-text comprehension and semantic reasoning capabilities on multiple benchmarks, outperforming representative open-source models of comparable scale. Furthermore, Covo-Audio-Chat, the dialogue-oriented variant, demonstrates strong spoken conversational abilities, including understanding, contextual reasoning, instruction following, and generating contextually appropriate and empathetic responses, validating its applicability to real-world conversational assistant scenarios. Covo-Audio-Chat-FD, the evolved full-duplex model, achieves substantially superior performance on both spoken dialogue capabilities and full-duplex interaction behaviors, demonstrating its competence in practical robustness. To mitigate the high cost of deploying end-to-end LALMs for natural conversational systems, we propose an intelligence-speaker decoupling strategy that separates dialogue intelligence from voice rendering, enabling flexible voice customization with minimal text-to-speech (TTS) data while preserving dialogue performance. Overall, our results highlight the strong potential of 7B-scale models to integrate sophisticated audio intelligence with high-level semantic reasoning, and suggest a scalable path toward more capable and versatile LALMs.


翻译:在本工作中,我们提出了 Covo-Audio,一个拥有 70 亿参数、可直接处理连续音频输入并在单一统一架构内生成音频输出的端到端 LALM。通过大规模精选预训练和针对性后训练,Covo-Audio 在语音-文本建模、口语对话、语音理解、音频理解以及全双工语音交互等一系列广泛任务上,取得了与同规模模型相比达到领先或具有竞争力的性能。广泛的评估表明,该预训练基础模型在多个基准测试中展现出强大的语音-文本理解与语义推理能力,超越了同规模的代表性开源模型。此外,面向对话的变体 Covo-Audio-Chat 展现出强大的口语对话能力,包括理解、上下文推理、指令遵循以及生成上下文恰当且富有同理心的回应,验证了其在现实世界对话助手场景中的适用性。进化后的全双工模型 Covo-Audio-Chat-FD 在口语对话能力和全双工交互行为两方面均实现了显著更优的性能,证明了其在实用鲁棒性方面的胜任力。为降低为自然对话系统部署端到端 LALM 的高昂成本,我们提出了一种智能-语音解耦策略,将对话智能与语音渲染分离,从而能够以最少的文本转语音数据实现灵活的语音定制,同时保持对话性能。总体而言,我们的结果突显了 70 亿参数规模模型在融合复杂音频智能与高级语义推理方面的巨大潜力,并指出了一条通往更强大、更通用 LALM 的可扩展路径。

0
下载
关闭预览

相关内容

【ICLR2025】VEVO:基于自监督解耦的可控零样本语音模仿
专知会员服务
9+阅读 · 2025年2月15日
《基于深度学习的自动无源声学监测》最新45页技术报告
专知会员服务
22+阅读 · 2024年12月15日
不可错过!斯坦福《语音语言处理》技术课程
专知会员服务
41+阅读 · 2022年5月2日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
语音信号处理:基本方法与前沿技术
AINLP
10+阅读 · 2020年10月14日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
NLP论文的技术播客-NLP Highlights
专知
14+阅读 · 2018年8月6日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
10+阅读 · 2018年1月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月26日
Arxiv
0+阅读 · 1月20日
VIP会员
相关资讯
语音信号处理:基本方法与前沿技术
AINLP
10+阅读 · 2020年10月14日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
NLP论文的技术播客-NLP Highlights
专知
14+阅读 · 2018年8月6日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
10+阅读 · 2018年1月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员