This paper studies the multimodal named entity recognition (MNER) and multimodal relation extraction (MRE), which are important for multimedia social platform analysis. The core of MNER and MRE lies in incorporating evident visual information to enhance textual semantics, where two issues inherently demand investigations. The first issue is modality-noise, where the task-irrelevant information in each modality may be noises misleading the task prediction. The second issue is modality-gap, where representations from different modalities are inconsistent, preventing from building the semantic alignment between the text and image. To address these issues, we propose a novel method for MNER and MRE by Multi-Modal representation learning with Information Bottleneck (MMIB). For the first issue, a refinement-regularizer probes the information-bottleneck principle to balance the predictive evidence and noisy information, yielding expressive representations for prediction. For the second issue, an alignment-regularizer is proposed, where a mutual information-based item works in a contrastive manner to regularize the consistent text-image representations. To our best knowledge, we are the first to explore variational IB estimation for MNER and MRE. Experiments show that MMIB achieves the state-of-the-art performances on three public benchmarks.


翻译:本文研究多模态命名实体识别(MNER)与多模态关系抽取(MRE),这两项任务对多媒体社交平台分析至关重要。MNER与MRE的核心在于利用显著的视觉信息增强文本语义,其中两个问题亟待探究。第一个问题是模态噪声,即每个模态中与任务无关的信息可能成为误导任务预测的噪声。第二个问题是模态鸿沟,即不同模态的表征不一致,阻碍文本与图像间的语义对齐构建。为解决这些问题,我们提出了一种基于信息瓶颈的多模态表征学习方法(MMIB),用于MNER与MRE。针对第一个问题,精炼正则化项通过信息瓶颈原理平衡预测性证据与噪声信息,从而生成富有表现力的预测表征。针对第二个问题,提出对齐正则化项,其中基于互信息的项以对比学习方式约束文本与图像表征的一致性。据我们所知,这是首次将变分信息瓶颈估计应用于MNER与MRE。实验表明,MMIB在三个公开基准上取得了最先进的性能。

0
下载
关闭预览

相关内容

【AAAI 2022】一致性信息瓶颈在域泛化中的应用
专知会员服务
26+阅读 · 2022年1月15日
【AAAI2021】信息瓶颈和有监督表征解耦
专知会员服务
21+阅读 · 2021年1月27日
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
31+阅读 · 2021年6月30日
Disentangled Information Bottleneck
Arxiv
12+阅读 · 2020年12月22日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
15+阅读 · 2018年4月5日
VIP会员
最新内容
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
0+阅读 · 21分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
相关VIP内容
【AAAI 2022】一致性信息瓶颈在域泛化中的应用
专知会员服务
26+阅读 · 2022年1月15日
【AAAI2021】信息瓶颈和有监督表征解耦
专知会员服务
21+阅读 · 2021年1月27日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员