Large audio-language models (LALMs), built upon powerful Large Language Models (LLMs), have exhibited remarkable audio comprehension and reasoning capabilities. However, the training of LALMs demands a large corpus of audio-language pairs, which requires substantial costs in both data collection and training resources. In this paper, we propose \textbf{MATS}, an audio-language multimodal LLM designed to handle \textbf{M}ultiple \textbf{A}udio task using solely \textbf{T}ext-only \textbf{S}upervision. By leveraging pre-trained audio-language alignment models such as CLAP, we develop a text-only training strategy that projects the shared audio-language latent space into LLM latent space, endowing the LLM with audio comprehension capabilities without relying on audio data during training. To further bridge the modality gap between audio and language embeddings within CLAP, we propose the \textbf{S}trongly-rel\textbf{a}ted \textbf{n}oisy \textbf{t}ext with \textbf{a}udio (\textbf{Santa}) mechanism. Santa maps audio embeddings into CLAP language embedding space while preserving essential information from the audio input. Extensive experiments demonstrate that MATS, despite being trained exclusively on text data, achieves competitive performance compared to recent LALMs trained on large-scale audio-language pairs. The code is publicly available in \href{https://github.com/wangwen-banban/MATS}{https://github.com/wangwen-banban/MATS}.


翻译:大型音频语言模型(LALMs)基于强大的大语言模型(LLMs)构建,已展现出卓越的音频理解与推理能力。然而,LALMs的训练需要大规模的音频-语言对语料库,这在数据收集和训练资源方面均需耗费巨大成本。本文提出 \textbf{MATS},一种音频语言多模态大语言模型,旨在仅使用\textbf{仅文本监督}处理\textbf{多}种\textbf{音频}任务。通过利用预训练的音频-语言对齐模型(如CLAP),我们开发了一种仅文本训练策略,该策略将共享的音频-语言潜在空间投影至LLM潜在空间,从而赋予LLM音频理解能力,而无需在训练过程中依赖音频数据。为了进一步弥合CLAP内部音频嵌入与语言嵌入之间的模态鸿沟,我们提出了\textbf{强相关噪声文本与音频}(\textbf{Santa})机制。Santa将音频嵌入映射到CLAP语言嵌入空间,同时保留音频输入中的关键信息。大量实验表明,MATS尽管仅使用文本数据进行训练,其性能仍可与近期基于大规模音频-语言对训练的LALMs相媲美。代码已在 \href{https://github.com/wangwen-banban/MATS}{https://github.com/wangwen-banban/MATS} 公开。

0
下载
关闭预览

相关内容

【CMU博士论文】大型语言模型的隐性特性
专知会员服务
15+阅读 · 2025年10月18日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
不可错过!《大语言模型》课程
专知会员服务
28+阅读 · 2025年4月15日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【CMU博士论文】大型语言模型的隐性特性
专知会员服务
15+阅读 · 2025年10月18日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
不可错过!《大语言模型》课程
专知会员服务
28+阅读 · 2025年4月15日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员