Audio-to-image retrieval offers an interpretable alternative to audio-only classification for bioacoustic species recognition, but learning aligned audio-image representations is challenging due to the scarcity of paired audio-image data. We propose a simple and data-efficient approach that enables audio-to-image retrieval without any audio-image supervision. Our proposed method uses text as a semantic intermediary: we distill the text embedding space of a pretrained image-text model (BioCLIP-2), which encodes rich visual and taxonomic structure, into a pretrained audio-text model (BioLingual) by fine-tuning its audio encoder with a contrastive objective. This distillation transfers visually grounded semantics into the audio representation, inducing emergent alignment between audio and image embeddings without using images during training. We evaluate the resulting model on multiple bioacoustic benchmarks. The distilled audio encoder preserves audio discriminative power while substantially improving audio-text alignment on focal recordings and soundscape datasets. Most importantly, on the SSW60 benchmark, the proposed approach achieves strong audio-to-image retrieval performance exceeding baselines based on zero-shot model combinations or learned mappings between text embeddings, despite not training on paired audio-image data. These results demonstrate that indirect semantic transfer through text is sufficient to induce meaningful audio-image alignment, providing a practical solution for visually grounded species recognition in data-scarce bioacoustic settings.


翻译:音频到图像检索为生物声学物种识别提供了一种比纯音频分类更具可解释性的替代方案,但由于配对音频-图像数据的稀缺性,学习对齐的音频-图像表征具有挑战性。本文提出一种简单且数据高效的方法,无需任何音频-图像监督即可实现音频到图像检索。所提方法使用文本作为语义中介:通过对比学习目标微调预训练音频-文本模型(BioLingual)的音频编码器,将预训练图像-文本模型(BioCLIP-2)的文本嵌入空间(编码了丰富的视觉和分类学结构)蒸馏至该模型。这种蒸馏过程将视觉基础语义转移到音频表征中,在训练过程中不使用图像的情况下,诱导音频与图像嵌入之间出现对齐。我们在多个生物声学基准上评估所得模型。蒸馏后的音频编码器在保持音频判别能力的同时,显著提升了在焦点录音和声景数据集上的音频-文本对齐效果。最重要的是,在SSW60基准测试中,所提方法实现了强大的音频到图像检索性能,超越了基于零样本模型组合或文本嵌入间学习映射的基线方法,尽管该方法未使用配对音频-图像数据进行训练。这些结果表明,通过文本进行的间接语义传递足以诱导有意义的音频-图像对齐,为数据稀缺的生物声学场景中基于视觉的物种识别提供了实用解决方案。

0
下载
关闭预览

相关内容

专知会员服务
43+阅读 · 2021年8月30日
专知会员服务
52+阅读 · 2021年5月15日
专知会员服务
39+阅读 · 2021年3月29日
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
深度图像先验:无需学习即可生成新图像
论智
45+阅读 · 2017年12月4日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员