跨模态检索方法为来自多种模态的样本建立了一个共同的表示空间,尤其是来自视觉和语言领域的样本。对于图像和它们的说明文字,对应的多样性使得这项任务特别具有挑战性。给定一个图像(分别是一个标题),有多个同样有意义的标题(分别是图像)。在本文中,我们认为确定性函数不足以捕获这种一对多对应。相反,我们提出使用概率交叉模态嵌入(PCME),来自不同模态的样本在公共嵌入空间中表示为概率分布。由于诸如COCO这样的通用基准测试在跨模态匹配时存在非详尽注释的问题,我们建议额外评估CUB数据集上的检索,这是一个更小但更干净的数据库,其中所有可能的图像标题对都被注释。我们广泛地ablate PCME,并证明它不仅提高了检索性能,其确定性对等物,但也提供不确定性估计,使嵌入更可解释。

https://arxiv.org/abs/2011.11108

成为VIP会员查看完整内容
20

相关内容

【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
【CVPR2021】动态度量学习
专知会员服务
42+阅读 · 2021年3月30日
专知会员服务
63+阅读 · 2021年3月12日
【CVPR2021】自监督几何感知
专知会员服务
46+阅读 · 2021年3月6日
专知会员服务
17+阅读 · 2021年2月17日
【AAAI2021】用于视频描述的语义分组网络
专知会员服务
16+阅读 · 2021年2月3日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
87+阅读 · 2020年11月5日
【视频】几何数据嵌入表示学习,74页ppt
专知会员服务
35+阅读 · 2020年7月24日
论文浅尝 | Knowledge Vault: 全网规模的知识概率融合方法
开放知识图谱
8+阅读 · 2019年3月11日
Arxiv
0+阅读 · 2021年4月19日
Arxiv
19+阅读 · 2020年7月13日
VIP会员
最新内容
AgentOps综述:智能体系统运维框架
专知会员服务
14+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
9+阅读 · 6月4日
《人工智能的挑战:算法战的想象与现实》
专知会员服务
11+阅读 · 6月4日
首场人工智能战争:Maven如何重塑武装冲突
专知会员服务
7+阅读 · 6月4日
《通往人工通用智能之路上的均衡策略》
专知会员服务
7+阅读 · 6月3日
《Palantir的科技生态系统》
专知会员服务
22+阅读 · 6月2日
相关VIP内容
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
【CVPR2021】动态度量学习
专知会员服务
42+阅读 · 2021年3月30日
专知会员服务
63+阅读 · 2021年3月12日
【CVPR2021】自监督几何感知
专知会员服务
46+阅读 · 2021年3月6日
专知会员服务
17+阅读 · 2021年2月17日
【AAAI2021】用于视频描述的语义分组网络
专知会员服务
16+阅读 · 2021年2月3日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
87+阅读 · 2020年11月5日
【视频】几何数据嵌入表示学习,74页ppt
专知会员服务
35+阅读 · 2020年7月24日
微信扫码咨询专知VIP会员