The model's ability to understand synonymous expression is crucial in many kinds of downstream tasks. It will make the model to better understand the similarity between context, and more robust to the synonym substitution attack. However, many Pretrained Language Model (PLM) lack synonym knowledge due to limitation of small-scale synsets and PLM's pretraining objectives. In this paper, we propose a framework called Sem4SAP to mine synsets from Open Knowledge Graph (Open-KG) and using the mined synsets to do synonym-aware pretraining for language models. We propose to coarsly filter the content in Open-KG and use the frequency information to better help the clustering process under low-resource unsupervised conditions. We expand the mined synsets by migrating core semantics between synonymous expressions.We also propose two novel and effective synonym-aware pre-training methods for injecting synonym knowledge into PLMs.Extensive experiments demonstrate that Sem4SAP can dramatically outperform the original PLMs and other baselines on ten different tasks.


翻译:模型理解同义表达的能力在许多下游任务中至关重要。该能力能使模型更好地把握语境间的相似性,并对同义词替换攻击具有更强的鲁棒性。然而,由于小规模同义词集和预训练目标的局限性,许多预训练语言模型(PLM)缺乏同义知识。本文提出一个名为Sem4SAP的框架,从开放知识图谱(Open-KG)中挖掘同义词集,并利用挖掘所得的同义词集对语言模型进行同义感知预训练。我们提出对开放知识图谱中的内容进行粗粒度过滤,并利用频率信息在低资源无监督条件下更好地辅助聚类过程。通过在同义表达之间迁移核心语义,我们扩展了所挖掘的同义词集。此外,我们还提出了两种新颖且有效的同义感知预训练方法,用于向预训练语言模型注入同义知识。大量实验表明,Sem4SAP在十项不同任务上显著优于原始预训练语言模型及其他基线模型。

0
下载
关闭预览

相关内容

NeurlPS 2022 | 深度双向语言-知识图谱预训练
专知会员服务
10+阅读 · 2022年11月28日
「知识增强预训练语言模型」最新研究综述
专知会员服务
62+阅读 · 2022年11月18日
专知会员服务
42+阅读 · 2021年6月6日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
26+阅读 · 2021年1月29日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答
AI科技评论
19+阅读 · 2020年6月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月15日
CSKG: The CommonSense Knowledge Graph
Arxiv
18+阅读 · 2020年12月21日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
29+阅读 · 2018年4月6日
VIP会员
最新内容
马赛克战:俄乌战场透析
专知会员服务
6+阅读 · 今天4:12
《利用人工智能增强军事决策》
专知会员服务
0+阅读 · 今天4:09
《自动机器学习在军事数据耕耘法中的应用》
专知会员服务
2+阅读 · 今天4:02
为何指挥所生存能力要求范式转变
专知会员服务
0+阅读 · 今天3:54
打造“新蛛网”模式与高科技动员
专知会员服务
0+阅读 · 今天3:33
“蛛网”行动一周年:远程无人机战争
专知会员服务
0+阅读 · 今天3:23
【剑桥博士论文】智能体-环境协同优化
专知会员服务
5+阅读 · 6月9日
为初级军官战术训练设计生成式人工智能平台
专知会员服务
8+阅读 · 6月9日
《美军条令:作战伤员后送保障》
专知会员服务
6+阅读 · 6月9日
相关论文
相关基金
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员