Audio-language models have recently demonstrated strong zero-shot capabilities by leveraging natural-language supervision to classify audio events without labeled training data. Yet, their performance is highly sensitive to the wording of text prompts, with small variations leading to large fluctuations in accuracy. Prior work has mitigated this issue through prompt learning or prompt ensembling. However, these strategies either require annotated data or fail to account for the fact that some prompts may negatively impact performance. In this work, we present an entropy-guided prompt weighting approach that aims to find a robust combination of prompt contributions to maximize prediction confidence. To this end, we formulate a tailored objective function that minimizes prediction entropy to yield new prompt weights, utilizing low-entropy as a proxy for high confidence. Our approach can be applied to individual samples or a batch of audio samples, requiring no additional labels and incurring negligible computational overhead. Experiments on five audio classification datasets covering environmental, urban, and vocal sounds, demonstrate consistent gains compared to classical prompt ensembling methods in a zero-shot setting, with accuracy improvements 5-times larger across the whole benchmark.


翻译:音频-语言模型近期通过利用自然语言监督在无需标注训练数据的情况下对音频事件进行分类,展现了强大的零样本能力。然而,其性能对文本提示的措辞极为敏感,微小的变动会导致准确率大幅波动。先前研究通过提示学习或提示集成缓解了这一问题。但这些策略要么需要标注数据,要么未能考虑到某些提示可能对性能产生负面影响。本研究提出一种基于熵引导的提示加权方法,旨在通过寻找提示贡献的稳健组合来最大化预测置信度。为此,我们构建了一个定制化的目标函数,通过最小化预测熵来生成新的提示权重,将低熵值作为高置信度的代理指标。该方法可应用于单个音频样本或批量样本,无需额外标注且计算开销可忽略不计。在涵盖环境声、城市声和人声的五类音频分类数据集上的实验表明,在零样本设置下,相较于传统提示集成方法,本方法取得了持续的性能提升,在整个基准测试中准确率提升幅度达到传统方法的五倍。

0
下载
关闭预览

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
【CVPR2022】提示分布学习
专知会员服务
31+阅读 · 2022年5月17日
【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
19+阅读 · 2021年2月12日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员