Word Sense Disambiguation is an open problem in Natural Language Processing which is particularly challenging and useful in the unsupervised setting where all the words in any given text need to be disambiguated without using any labeled data. Typically WSD systems use the sentence or a small window of words around the target word as the context for disambiguation because their computational complexity scales exponentially with the size of the context. In this paper, we leverage the formalism of topic model to design a WSD system that scales linearly with the number of words in the context. As a result, our system is able to utilize the whole document as the context for a word to be disambiguated. The proposed method is a variant of Latent Dirichlet Allocation in which the topic proportions for a document are replaced by synset proportions. We further utilize the information in the WordNet by assigning a non-uniform prior to synset distribution over words and a logistic-normal prior for document distribution over synsets. We evaluate the proposed method on Senseval-2, Senseval-3, SemEval-2007, SemEval-2013 and SemEval-2015 English All-Word WSD datasets and show that it outperforms the state-of-the-art unsupervised knowledge-based WSD system by a significant margin.


翻译:在自然语言处理中,Wordsense Dismodication是一个公开的自然语言处理中的问题,这个问题特别具有挑战性和有用性,在不受监督的环境下,任何特定文本中的所有单词都需要在不使用任何标签数据的情况下进行模糊化。通常, WSD 系统使用目标字周围的句子或一小扇字窗口作为模糊化的上下文,因为它们的计算复杂度与上下文大小成倍成倍。在本文中,我们利用专题模式的形式设计一个WSD系统,该系统与上下文中的单词数量成线缩放。因此,我们的系统能够利用整个文档作为上下文来淡化一个单词。拟议的方法是“Lenttit Dirichlet 分配”的变式,其中文档的主题比例被音频比例取代。我们进一步利用WordNet中的信息,方法是在Synset分发单词之前指定一个不统一的系统,在Synsetset上分发文档之前设定一个逻辑的正常性。我们评估了Sensval-2、Senevval-3、Semval-2007、SemEval-2013和SemEval-Emball-SD-SD-SD-Sl-SD、SD-SD-SD-SD、SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-S

5
下载
关闭预览

相关内容

《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
32+阅读 · 2019年10月17日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
自然语言处理顶会 ACL 2018 参会见闻
PaperWeekly
3+阅读 · 2018年7月26日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
5+阅读 · 2018年2月26日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
最新内容
《压缩式分布式交互仿真标准》120页
专知会员服务
0+阅读 · 8分钟前
《电子战数据交换模型研究报告》
专知会员服务
1+阅读 · 16分钟前
《基于Transformer的异常舰船导航识别与跟踪》80页
专知会员服务
1+阅读 · 44分钟前
《低数据领域军事目标检测模型研究》
专知会员服务
1+阅读 · 52分钟前
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
人工智能即服务与未来战争(印度视角)
专知会员服务
4+阅读 · 4月22日
相关VIP内容
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
32+阅读 · 2019年10月17日
相关论文
Top
微信扫码咨询专知VIP会员