Although text-based large language models exhibit human-level writing ability and remarkable intelligence, speech language models (SLMs) still struggle to generate semantically coherent outputs. There are several potential reasons for this performance degradation: (A) speech tokens mainly provide phonetic information rather than semantic information, (B) the length of speech sequences is much longer than that of text sequences, and (C) paralinguistic information, such as prosody, introduces additional complexity and variability. In this paper, we explore the influence of three key factors separately by transiting the modality from text to speech in an evolving manner. Our findings reveal that the impact of the three factors varies. Factor A has a relatively minor impact, factor B influences syntactical and semantic modeling more obviously, and factor C exerts the most significant impact, particularly in the basic lexical modeling. Based on these findings, we provide insights into the unique challenges of training SLMs and highlight pathways to develop more effective end-to-end SLMs.


翻译:尽管基于文本的大型语言模型展现出人类水平的写作能力和卓越的智能,语音语言模型在生成语义连贯的输出方面仍然面临困难。导致这种性能下降的可能原因包括:(A)语音标记主要提供语音信息而非语义信息;(B)语音序列的长度远大于文本序列;(C)副语言信息(如韵律)引入了额外的复杂性和变异性。本文通过从文本到语音的渐进式模态转换,分别探究了这三个关键因素的影响。研究发现,三个因素的影响程度各不相同:因素A的影响相对较小;因素B对句法和语义建模的影响更为明显;而因素C的影响最为显著,尤其在基础词汇建模层面。基于这些发现,我们深入探讨了训练语音语言模型所面临的独特挑战,并指出了开发更有效的端到端语音语言模型的可行路径。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
大语言模型与小语言模型协同机制综述
专知会员服务
38+阅读 · 2025年5月15日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
大语言模型对齐研究综述
专知会员服务
56+阅读 · 2024年8月1日
《多模态大型语言模型进化》最新综述
专知会员服务
105+阅读 · 2024年2月23日
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
VIP会员
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
大语言模型与小语言模型协同机制综述
专知会员服务
38+阅读 · 2025年5月15日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
大语言模型对齐研究综述
专知会员服务
56+阅读 · 2024年8月1日
《多模态大型语言模型进化》最新综述
专知会员服务
105+阅读 · 2024年2月23日
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员