Retrieval-based Knowledge Augmented Vision Language Pre-training - 专知论文

会员服务 ·

0

知识 (knowledge) · Vision · MoDELS · state-of-the-art · Performer ·

2023 年 4 月 27 日

Retrieval-based Knowledge Augmented Vision Language Pre-training

翻译：基于检索的知识增强视觉语言预训练

Jiahua Rao,Zifei Shan,Longpo Liu,Yao Zhou,Yuedong Yang

With recent progress in large-scale vision and language representation learning, Vision Language Pretraining (VLP) models have achieved promising improvements on various multi-modal downstream tasks. Albeit powerful, these pre-training models still do not take advantage of world knowledge, which is implicit in multi-modal data but comprises abundant and complementary information. In this work, we propose a REtrieval-based knowledge Augmented Vision Language Pre-training model (REAVL), which retrieves world knowledge from knowledge graphs (KGs) and incorporates them in vision-language pre-training. REAVL has two core components: a knowledge retriever that retrieves knowledge given multi-modal data, and a knowledge-augmented model that fuses multi-modal data and knowledge. By novelly unifying four knowledge-aware self-supervised tasks, REAVL promotes the mutual integration of multi-modal data and knowledge by fusing explicit knowledge with vision-language pairs for masked multi-modal data modeling and KG relational reasoning. Empirical experiments show that REAVL achieves new state-of-the-art performance uniformly on knowledge-based vision-language understanding and multimodal entity linking tasks, and competitive results on general vision-language tasks while only using 0.2% pre-training data of the best models.

翻译：随着大规模视觉与语言表征学习的进展，视觉语言预训练（VLP）模型在各种多模态下游任务中取得了令人瞩目的提升。尽管功能强大，这些预训练模型尚未充分利用世界知识——这些知识隐含于多模态数据中，但包含丰富且互补的信息。本研究提出基于检索的知识增强视觉语言预训练模型（REAVL），该模型从知识图谱（KGs）中检索世界知识并将其融入视觉语言预训练。REAVL包含两大核心组件：一个知识检索器，根据多模态数据检索相关知识；一个知识增强模型，融合多模态数据与知识。通过创新性地统一四种知识感知自监督任务，REAVL将显式知识与视觉语言对相结合，用于掩码多模态数据建模与知识图谱关系推理，从而促进多模态数据与知识的相互融合。实验结果表明，REAVL在基于知识的视觉语言理解与多模态实体链接任务上全面达到最新最优性能，同时在仅使用最优模型0.2%预训练数据的情况下，在通用视觉语言任务上取得具有竞争力的结果。

0

相关内容

知识 (knowledge)

知识 (knowledge)

通过学习、实践或探索所获得的认识、判断或技能。

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

“CVPR 2021 接受论文列表 1663篇论文都在这了

专知会员服务

32+阅读 · 2021年6月12日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

164+阅读 · 2019年10月12日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

图与推荐

2+阅读 · 2022年11月2日

17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020

17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020

专知

82+阅读 · 2020年2月13日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

自然语言处理顶会EMNLP2018接受论文列表！

自然语言处理顶会EMNLP2018接受论文列表！

专知

87+阅读 · 2018年8月26日

【论文推荐】最新七篇知识图谱相关论文—嵌入式知识、Zero-shot识别、知识图谱嵌入、网络库、变分推理、解释、弱监督

【论文推荐】最新七篇知识图谱相关论文—嵌入式知识、Zero-shot识别、知识图谱嵌入、网络库、变分推理、解释、弱监督

专知

19+阅读 · 2018年3月26日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

基于IFC的建筑信息模型(BIM)语义检索技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

肿瘤坏死因子预处理及其抗体对体外循环肺保护作用的新机制

国家自然科学基金

0+阅读 · 2014年12月31日

肿瘤特异性启动子调控的MRI成像特异诊断恶性肿瘤的实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

AEG-1 siRNA和阿霉素共传递抑制骨肉瘤生长和转移作用及机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

锚定结直肠癌细胞膜EphA2受体蛋白的分子成像及靶向给药研究

国家自然科学基金

0+阅读 · 2012年12月31日

RNA/Peptide双重适配体介导腺病毒/阿霉素肿瘤靶向递药系统构建及抑癌机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

HER2靶向新型纳米载体荷载BCRP-siRNA经UTMD逆转乳腺癌耐药性的实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

多功能明胶酶靶向纳米粒子对进展期胃癌转移性淋巴结的示踪作用研究

国家自然科学基金

0+阅读 · 2012年12月31日

EB病毒LMP2特异性结合affibody分子的筛选及特性研究

国家自然科学基金

0+阅读 · 2012年12月31日

膜型基质金属蛋白酶靶向多肽探针在肿瘤影像中的研究

国家自然科学基金

0+阅读 · 2012年12月31日

Retrieval-Enhanced Contrastive Vision-Text Models

Arxiv

0+阅读 · 2023年6月12日

The Effect of Masking Strategies on Knowledge Retention by Language Models

Arxiv

0+阅读 · 2023年6月12日

Global and Local Semantic Completion Learning for Vision-Language Pre-training

Arxiv

0+阅读 · 2023年6月12日

Leveraging Skill-to-Skill Supervision for Knowledge Tracing

Arxiv

0+阅读 · 2023年6月12日

Evaluating Prompt-based Question Answering for Object Prediction in the Open Research Knowledge Graph

Evaluating Prompt-based Question Answering for Object Prediction in the Open Research Knowledge Graph

Arxiv

1+阅读 · 2023年6月11日

VLP: A Survey on Vision-Language Pre-training

VLP: A Survey on Vision-Language Pre-training

Arxiv

11+阅读 · 2022年2月21日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

Arxiv

11+阅读 · 2020年7月31日

Learning over Knowledge-Base Embeddings for Recommendation

Arxiv

23+阅读 · 2018年3月22日

Learning beyond datasets: Knowledge Graph Augmented Neural Networks for Natural language Processing

Arxiv

11+阅读 · 2018年2月16日

VIP会员

文章信息

相关主题

知识 (knowledge)

state-of-the-art

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

3+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

3+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

“CVPR 2021 接受论文列表 1663篇论文都在这了

专知会员服务

32+阅读 · 2021年6月12日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

164+阅读 · 2019年10月12日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

图与推荐

2+阅读 · 2022年11月2日

17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020

17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020

专知

82+阅读 · 2020年2月13日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

自然语言处理顶会EMNLP2018接受论文列表！

自然语言处理顶会EMNLP2018接受论文列表！

专知

87+阅读 · 2018年8月26日

【论文推荐】最新七篇知识图谱相关论文—嵌入式知识、Zero-shot识别、知识图谱嵌入、网络库、变分推理、解释、弱监督

【论文推荐】最新七篇知识图谱相关论文—嵌入式知识、Zero-shot识别、知识图谱嵌入、网络库、变分推理、解释、弱监督

专知

19+阅读 · 2018年3月26日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

相关论文

Retrieval-Enhanced Contrastive Vision-Text Models

Arxiv

0+阅读 · 2023年6月12日

The Effect of Masking Strategies on Knowledge Retention by Language Models

Arxiv

0+阅读 · 2023年6月12日

Global and Local Semantic Completion Learning for Vision-Language Pre-training

Arxiv

0+阅读 · 2023年6月12日

Leveraging Skill-to-Skill Supervision for Knowledge Tracing

Arxiv

0+阅读 · 2023年6月12日

Evaluating Prompt-based Question Answering for Object Prediction in the Open Research Knowledge Graph

Evaluating Prompt-based Question Answering for Object Prediction in the Open Research Knowledge Graph

Arxiv

1+阅读 · 2023年6月11日

VLP: A Survey on Vision-Language Pre-training

VLP: A Survey on Vision-Language Pre-training

Arxiv

11+阅读 · 2022年2月21日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

Arxiv

11+阅读 · 2020年7月31日

Learning over Knowledge-Base Embeddings for Recommendation

Arxiv

23+阅读 · 2018年3月22日

Learning beyond datasets: Knowledge Graph Augmented Neural Networks for Natural language Processing

Arxiv

11+阅读 · 2018年2月16日

相关基金

基于IFC的建筑信息模型(BIM)语义检索技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

肿瘤坏死因子预处理及其抗体对体外循环肺保护作用的新机制

国家自然科学基金

0+阅读 · 2014年12月31日

肿瘤特异性启动子调控的MRI成像特异诊断恶性肿瘤的实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

AEG-1 siRNA和阿霉素共传递抑制骨肉瘤生长和转移作用及机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

锚定结直肠癌细胞膜EphA2受体蛋白的分子成像及靶向给药研究

国家自然科学基金

0+阅读 · 2012年12月31日

RNA/Peptide双重适配体介导腺病毒/阿霉素肿瘤靶向递药系统构建及抑癌机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

HER2靶向新型纳米载体荷载BCRP-siRNA经UTMD逆转乳腺癌耐药性的实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

多功能明胶酶靶向纳米粒子对进展期胃癌转移性淋巴结的示踪作用研究

国家自然科学基金

0+阅读 · 2012年12月31日

EB病毒LMP2特异性结合affibody分子的筛选及特性研究

国家自然科学基金

0+阅读 · 2012年12月31日

膜型基质金属蛋白酶靶向多肽探针在肿瘤影像中的研究

国家自然科学基金

0+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员