Speech language models (Speech LMs) enable end-to-end speech-text modeling within a single model, offering a promising direction for spoken dialogue systems. The choice of speech-text jointly decoding paradigm plays a critical role in performance, efficiency, and alignment quality. In this work, we systematically compare representative joint speech-text decoding strategies, including the interleaved, and parallel generation paradigms, under a controlled experimental setup using the same base language model, speech tokenizer and training data. Our results show that the interleaved approach achieves the best alignment. However it suffers from slow inference due to long token sequence length. To address this, we propose a novel early-stop interleaved (ESI) pattern that not only significantly accelerates decoding but also yields slightly better performance. Additionally, we curate high-quality question answering (QA) datasets to further improve speech QA performance.


翻译:语音语言模型(Speech LMs)能够在单一模型内实现端到端的语音-文本建模,为口语对话系统提供了有前景的发展方向。语音-文本联合解码范式的选择对系统性能、效率及对齐质量具有关键影响。本研究在采用相同基础语言模型、语音分词器及训练数据的受控实验环境下,系统比较了代表性的联合语音-文本解码策略,包括交错生成与并行生成范式。实验结果表明,交错生成方法能实现最佳的对齐效果,但因生成标记序列过长导致推理速度缓慢。为解决此问题,我们提出一种新颖的早期停止交错(ESI)模式,该模式不仅能显著加速解码过程,还能获得轻微的性能提升。此外,我们构建了高质量问答(QA)数据集以进一步提升语音问答性能。

0
下载
关闭预览

相关内容

大语言模型与小语言模型协同机制综述
专知会员服务
38+阅读 · 2025年5月15日
《口语语言模型研究现状:一项全面综述》
专知会员服务
16+阅读 · 2025年4月14日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大语言模型与小语言模型协同机制综述
专知会员服务
38+阅读 · 2025年5月15日
《口语语言模型研究现状:一项全面综述》
专知会员服务
16+阅读 · 2025年4月14日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员