Visual Semantic Embedding (VSE) models, which map images into a rich semantic embedding space, have been a milestone in object recognition and zero-shot learning. Current approaches to VSE heavily rely on static word em-bedding techniques. In this work, we propose a Visual Se-mantic Embedding Probe (VSEP) designed to probe the semantic information of contextualized word embeddings in visual semantic understanding tasks. We show that the knowledge encoded in transformer language models can be exploited for tasks requiring visual semantic understanding.The VSEP with contextual representations can distinguish word-level object representations in complicated scenes as a compositional zero-shot learner. We further introduce a zero-shot setting with VSEPs to evaluate a model's ability to associate a novel word with a novel visual category. We find that contextual representations in language mod-els outperform static word embeddings, when the compositional chain of object is short. We notice that current visual semantic embedding models lack a mutual exclusivity bias which limits their performance.


翻译:将图像映射成丰富的语义嵌入空间的视觉语义嵌入模型(VSE)模型(VSE)模型(VSE)模型(VSE)模型(将图像映射成丰富的语义嵌入空间)是物体识别和零光学习的一个里程碑。 VSEE目前的方法在很大程度上依赖静态的单词嵌入技术。在这项工作中,我们提议了一个视觉语义嵌入模型(VSEP)模型(VSEP)模型(VSEP)模型(VSEP),旨在探测视觉语义嵌入视觉语义解理解任务的背景语言词嵌入的语义信息。我们显示,变异语言语言模型编码的语义嵌入模型可用于需要视觉语义理解的任务。有背景的VSEPEP(VSEP)可以区分复杂场景中的单词级对象表达方式,作为成成成文的零光学学习者。我们进一步引入了与VSEPSEPs(VSEPs)的零光谱设置零光度设置,以评价模型将新词和新视觉视觉视觉视觉视觉视觉视觉视觉视觉视觉语言分类的能力。我们发现,当物体组成链短短时,在语言的语义嵌入模块外的语义嵌入式词嵌入的语义嵌入时,没有相互的偏差限制其性。我们发现。我们注意到。

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
BERT进展2019四篇必读论文
专知会员服务
70+阅读 · 2020年1月2日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
Arxiv
17+阅读 · 2021年2月15日
Learning to Focus when Ranking Answers
Arxiv
5+阅读 · 2018年8月8日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
8+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
Top
微信扫码咨询专知VIP会员