Large-scale commonsense knowledge bases empower a broad range of AI applications, where the automatic extraction of commonsense knowledge (CKE) is a fundamental and challenging problem. CKE from text is known for suffering from the inherent sparsity and reporting bias of commonsense in text. Visual perception, on the other hand, contains rich commonsense knowledge about real-world entities, e.g., (person, can_hold, bottle), which can serve as promising sources for acquiring grounded commonsense knowledge. In this work, we present CLEVER, which formulates CKE as a distantly supervised multi-instance learning problem, where models learn to summarize commonsense relations from a bag of images about an entity pair without any human annotation on image instances. To address the problem, CLEVER leverages vision-language pre-training models for deep understanding of each image in the bag, and selects informative instances from the bag to summarize commonsense entity relations via a novel contrastive attention mechanism. Comprehensive experimental results in held-out and human evaluation show that CLEVER can extract commonsense knowledge in promising quality, outperforming pre-trained language model-based methods by 3.9 AUC and 6.4 mAUC points. The predicted commonsense scores show strong correlation with human judgment with a 0.78 Spearman coefficient. Moreover, the extracted commonsense can also be grounded into images with reasonable interpretability. The data and codes can be obtained at https://github.com/thunlp/CLEVER.


翻译:大规模常识知识库支撑着广泛的AI应用,其中常识知识的自动提取(CKE)是一个基础且具有挑战性的问题。基于文本的常识知识提取因文本中常识的固有稀疏性和报告偏差而备受困扰。而视觉感知包含关于真实世界实体的丰富常识知识,例如(人,可握持,瓶子),可作为获取锚定常识知识的有前景的来源。在本工作中,我们提出CLEVER方法,将常识知识提取形式化为远程监督的多实例学习问题,其中模型学习从关于实体对的一批图像中总结常识关系,无需任何图像实例的人工标注。为解决这一问题,CLEVER利用视觉语言预训练模型深入理解批次中的每张图像,并通过新颖的对比注意力机制从批次中选取信息丰富的实例来总结常识实体关系。在留出集和人工评估中的综合实验结果表明,CLEVER能够以高质量提取常识知识,在AUC和mAUC指标上分别超越基于预训练语言模型的方法3.9和6.4个百分点。预测的常识得分与人类判断之间呈现强相关性,斯皮尔曼系数达0.78。此外,提取的常识还可锚定至图像并具有合理的可解释性。数据和代码可访问 https://github.com/thunlp/CLEVER 获取。

0
下载
关闭预览

相关内容

【AAAI2023】视觉辅助的常识知识获取
专知会员服务
16+阅读 · 2022年11月28日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
26+阅读 · 2021年1月29日
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
134+阅读 · 2020年2月13日
【AAAI2023】视觉辅助的常识知识获取
专知
1+阅读 · 2022年11月28日
论文浅尝 | 预训练单模态和多模态模型中的视觉常识
开放知识图谱
4+阅读 · 2022年8月22日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
33+阅读 · 2021年12月31日
Arxiv
102+阅读 · 2020年3月4日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员