In text-audio retrieval (TAR) tasks, due to the heterogeneity of contents between text and audio, the semantic information contained in the text is only similar to certain frames within the audio. Yet, existing works aggregate the entire audio without considering the text, such as mean-pooling over the frames, which is likely to encode misleading audio information not described in the given text. In this paper, we present a text-aware attention pooling (TAP) module for TAR, which is essentially a scaled dot product attention for a text to attend to its most semantically similar frames. Furthermore, previous methods only conduct the softmax for every single-side retrieval, ignoring the potential cross-retrieval information. By exploring the intrinsic prior of each text-audio pair, we introduce a prior matrix revised (PMR) loss to filter the hard case with high (or low) text-to-audio but low (or high) audio-to-text similarity scores, thus achieving the dual optimal match. Experiments show that our TAP significantly outperforms various text-agnostic pooling functions. Moreover, our PMR loss also shows stable performance gains on multiple datasets.


翻译:在文本-音频检索(TAR)任务中,由于文本与音频内容存在异质性,文本所蕴含的语义信息仅与音频中的特定帧片段相似。然而,现有方法在聚合整个音频信号时未考虑文本特征,例如采用帧级平均池化操作,这可能导致编码与给定文本描述无关的误导性音频信息。本文提出了一种面向TAR的文本感知注意力池化(TAP)模块,其本质是通过缩放点积注意力机制使文本聚焦于语义最相似的音频帧。此外,现有方法仅对单侧检索进行softmax归一化,忽略了跨检索方向的潜在关联信息。通过挖掘每个文本-音频对的内在先验,我们引入先验矩阵修正(PMR)损失函数,以过滤具有高(低)文本-音频相似度但低(高)音频-文本相似度得分的困难样本,从而实现双向最优匹配。实验表明,我们的TAP模块显著优于各类文本无关池化函数。同时,PMR损失在多个数据集上均展现出稳定性能提升。

0
下载
关闭预览

相关内容

Graph Transformer近期进展
专知会员服务
65+阅读 · 2023年1月5日
NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
51+阅读 · 2022年10月2日
深度学习图像检索(CBIR): 十年之大综述
专知会员服务
47+阅读 · 2020年12月5日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
VIP会员
最新内容
网状网络及其在军事领域的运用
专知会员服务
1+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
2+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
1+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
3+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
7+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
5+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
7+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
5+阅读 · 6月24日
相关VIP内容
Graph Transformer近期进展
专知会员服务
65+阅读 · 2023年1月5日
NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
51+阅读 · 2022年10月2日
深度学习图像检索(CBIR): 十年之大综述
专知会员服务
47+阅读 · 2020年12月5日
相关资讯
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员