Automated Audio Captioning aims to describe the semantic content of input audio. Recent works have employed large language models (LLMs) as a text decoder to leverage their reasoning capabilities. However, prior approaches that project audio features into the LLM embedding space without considering cross-modal alignment fail to fully utilize these capabilities. To address this, we propose LAMB, an LLM-based audio captioning framework that bridges the modality gap between audio embeddings and the LLM text embedding space. LAMB incorporates a Cross-Modal Aligner that minimizes Cauchy-Schwarz divergence while maximizing mutual information, yielding tighter alignment between audio and text at both global and token levels. We further design a Two-Stream Adapter that extracts semantically enriched audio embeddings, thereby delivering richer information to the Cross-Modal Aligner. Finally, leveraging the aligned audio embeddings, a proposed Token Guide directly computes scores within the LLM text embedding space to steer the output logits of generated captions. Experimental results confirm that our framework strengthens the reasoning capabilities of the LLM decoder, achieving state-of-the-art performance on AudioCaps.


翻译:自动音频描述旨在描述输入音频的语义内容。近期研究采用大语言模型作为文本解码器以利用其推理能力。然而,先前方法将音频特征直接投影至LLM嵌入空间而未考虑跨模态对齐,导致无法充分利用这些能力。为此,我们提出LAMB——一种基于LLM的音频描述框架,旨在弥合音频嵌入与LLM文本嵌入空间之间的模态鸿沟。LAMB引入跨模态对齐器,通过最小化柯西-施瓦茨散度并最大化互信息,实现音频与文本在全局和词元层面的紧密对齐。我们进一步设计双流适配器,提取语义增强的音频嵌入,从而为跨模态对齐器提供更丰富的信息。最终,利用对齐后的音频嵌入,所提出的词元引导器直接在LLM文本嵌入空间内计算评分,以引导生成描述的输出逻辑。实验结果证实,我们的框架增强了LLM解码器的推理能力,在AudioCaps数据集上取得了最先进的性能。

0
下载
关闭预览

相关内容

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员