Most of the Natural Language Processing sys- tems are involved in entity-based processing for several tasks like Information Extraction, Question-Answering, Text-Summarization and so on. A new challenge comes when entities play roles according to their act or attributes in certain context. Entity Role Detection is the task of assigning such roles to the entities. Usu- ally real-world entities are of types: person, lo- cation and organization etc. Roles could be con- sidered as domain-dependent subtypes of these types. In the cases, where retrieving a subset of entities based on their roles is needed, poses the problem of defining the role and entities having those roles. This paper presents the study of study of solving Entity Role Detection prob- lem by modeling it as Named Entity Recogni- tion (NER) and Entity Retrieval/Ranking task. In NER, these roles could be considered as mutually exclusive classes and standard NER methods like sequence tagging could be used. For Entity Retrieval, Roles could be formulated as Query and entities as Collection on which the query needs to be executed. The aspect of Entity Retrieval task, which is different than document retrieval task is that the entities and roles against which they need to be retrieved are indirectly described. We have formulated au- tomated ways of learning representative words and phrases and building representations of roles and entities using them. We have also explored different contexts like sentence and document. Since the roles depend upon con- text, so it is not always possible to have large domain-specific dataset or knowledge bases for learning purposes, so we have tried to exploit the information from small dataset in domain- agnostic way.


翻译:大多数自然语言处理系统在处理信息抽取、问答系统、文本摘要等任务时,均涉及基于实体的处理流程。当实体在特定语境中根据其行为或属性扮演不同角色时,便产生了新的挑战。实体角色检测任务旨在为实体分配此类角色。现实世界中的实体通常可分为人物、地点、组织等类型,而角色可视为这些类型在特定领域下的子类。当需要根据角色筛选实体子集时,如何定义角色及具备这些角色的实体便成为关键问题。本文提出通过将实体角色检测问题建模为命名实体识别与实体检索/排序任务的研究方案。在命名实体识别中,这些角色可视为互斥的类别,可采用序列标注等标准方法进行处理。对于实体检索任务,角色可表述为查询条件,实体则构成待检索的集合。与文档检索任务不同,实体检索的特殊性在于实体及其对应角色的描述往往具有间接性。我们构建了自动化学习表征词与短语的框架,并利用这些表征构建角色与实体的向量表示。同时探索了句子与文档等不同语境层级。由于角色具有语境依赖性,获取大规模领域专用数据集或知识库常面临困难,因此我们尝试以领域无关的方式挖掘小规模数据集的信息价值。

0
下载
关闭预览

相关内容

实体(entity)是有可区别性且独立存在的某种事物,但它不需要是物质上的存在。尤其是抽象和法律拟制也通常被视为实体。实体可被看成是一包含有子集的集合。在哲学里,这种集合被称为客体。实体可被使用来指涉某个可能是人、动物、植物或真菌等不会思考的生命、无生命物体或信念等的事物。在这一方面,实体可以被视为一全包的词语。有时,实体被当做本质的广义,不论即指的是否为物质上的存在,如时常会指涉到的无物质形式的实体-语言。更有甚者,实体有时亦指存在或本质本身。在法律上,实体是指能具有权利和义务的事物。这通常是指法人,但也包括自然人。
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
【AAAI2022】谣言粉碎机!可解释事实检验算法研究
专知会员服务
17+阅读 · 2022年1月30日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员