Recent Speech Large Language Models~(LLMs) have achieved impressive capabilities in end-to-end speech interaction. However, the prevailing autoregressive paradigm imposes strict serial constraints, limiting generation efficiency and introducing exposure bias. In this paper, we investigate Masked Diffusion Modeling~(MDM) as a non-autoregressive paradigm for speech LLMs and introduce VocalNet-MDM. To adapt MDM for streaming speech interaction, we address two critical challenges: training-inference mismatch and iterative overhead. We propose Hierarchical Block-wise Masking to align training objectives with the progressive masked states encountered during block diffusion decoding, and Iterative Self-Distillation to compress multi-step refinement into fewer steps for low-latency inference. Trained on a limited scale of only 6K hours of speech data, VocalNet-MDM achieves a 3.7$\times$--10$\times$ decoding speedup and reduces first-chunk latency by 34\% compared to AR baselines. It maintains competitive recognition accuracy while achieving state-of-the-art text quality and speech naturalness, demonstrating that MDM is a promising and scalable alternative for low-latency, efficient speech LLMs.


翻译:近期,语音大语言模型在端到端语音交互方面展现出令人瞩目的能力。然而,主流的自回归范式施加了严格的串行约束,限制了生成效率并引入了曝光偏差。本文研究了掩码扩散建模作为一种非自回归范式用于语音大语言模型,并提出了VocalNet-MDM。为使MDM适应流式语音交互,我们解决了两个关键挑战:训练-推理失配和迭代开销。我们提出了分层块级掩码策略,以使训练目标与块扩散解码过程中遇到的渐进掩码状态对齐;同时提出了迭代自蒸馏方法,将多步精炼压缩为更少的步骤,以实现低延迟推理。在仅使用6千小时语音数据的有限规模上训练后,VocalNet-MDM相比自回归基线实现了3.7倍至10倍的解码加速,并将首块延迟降低了34%。它在保持竞争力的识别准确率的同时,实现了最先进的文本质量和语音自然度,证明了MDM是构建低延迟、高效语音大语言模型的一种有前景且可扩展的替代方案。

0
下载
关闭预览

相关内容

MDM会议旨在寻找移动计算和数据管理领域寻求原始研究贡献,移动数据驱动的创新应用。 官网地址:http://dblp.uni-trier.de/db/conf/mdm/
扩散语言模型综述
专知会员服务
18+阅读 · 2025年8月15日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员