Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation - 专知论文

会员服务 ·

0

标注 · 语义标注 · 系统 · 数据集 · 神经网络 ·

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

翻译：基于银标准数据构建混合规则与神经网络的语义标注器：用于多语言语义标注的PyMUSAS框架

Andrew Moore,Paul Rayson,Dawn Archer,Tim Czerniak,Dawn Knight,Daisy Lal,Gearóid Ó Donnchadha,Mícheál Ó Meachair,Scott Piao,Elaine Uí Dhonnchadha,Johanna Vuorinen,Yan Yabo,Xiaobin Yang

from arxiv, 12 pages, 2 figures

Word Sense Disambiguation (WSD) has been widely evaluated using the semantic frameworks of WordNet, BabelNet, and the Oxford Dictionary of English. However, for the UCREL Semantic Analysis System (USAS) framework, no open extensive evaluation has been performed beyond lexical coverage or single language evaluation. In this work, we perform the largest semantic tagging evaluation of the rule based system that uses the lexical resources in the USAS framework covering five different languages using four existing datasets and one novel Chinese dataset. We create a new silver labelled English dataset, to overcome the lack of manually tagged training data, that we train and evaluate various mono and multilingual neural models in both mono and cross-lingual evaluation setups with comparisons to their rule based counterparts, and show how a rule based system can be enhanced with a neural network model. The resulting neural network models, including the data they were trained on, the Chinese evaluation dataset, and all of the code have been released as open resources.

翻译：词义消歧任务已在WordNet、BabelNet和《牛津英语词典》等语义框架下得到广泛评估。然而，对于UCREL语义分析系统框架，除词汇覆盖度或单一语言评估外，尚未进行公开的大规模评估。本研究利用USAS框架中的词汇资源，通过四个现有数据集和一个新颖的中文数据集，对覆盖五种语言的基于规则的语义标注系统进行了迄今最大规模的评估。为克服人工标注训练数据的不足，我们创建了新的银标注英文数据集，在该数据集上训练并评估了多种单语及多语言神经模型，涵盖单语与跨语言评估设置，并与对应的基于规则系统进行比较，展示了如何通过神经网络模型增强基于规则的系统。最终发布的神经网络模型（包括其训练数据）、中文评估数据集及全部代码均已作为开放资源发布。

0

相关内容

【CVPR2022】语言作为查询的参考视频目标分割框架

【CVPR2022】语言作为查询的参考视频目标分割框架

专知会员服务

10+阅读 · 2022年4月27日

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

专知会员服务

35+阅读 · 2021年12月17日

【干货书】面向机器学习的自然语言标注，341页pdf

【干货书】面向机器学习的自然语言标注，341页pdf

专知会员服务

68+阅读 · 2021年2月7日

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

专知会员服务

23+阅读 · 2020年11月14日

【PNAS2020-斯坦福】自监督训练的人工神经网络中的涌现语言结构

【PNAS2020-斯坦福】自监督训练的人工神经网络中的涌现语言结构

专知会员服务

20+阅读 · 2020年6月5日

【SIGIR2020-中科院】TAGNN: 基于会话推荐的目标注意力图神经网络，TAGNN: Target Attentive Graph Neural Networks for Session-based Recommendation

【SIGIR2020-中科院】TAGNN: 基于会话推荐的目标注意力图神经网络，TAGNN: Target Attentive Graph Neural Networks for Session-based Recommendation

专知会员服务

42+阅读 · 2020年5月10日

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

专知会员服务

42+阅读 · 2020年3月17日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

93+阅读 · 2019年12月22日

【EMNLP 2019 最佳论文】信息瓶颈专门化单词嵌入（用于解析）（Specializing Word Embeddings（for Parsing）by Information Bottleneck）

【EMNLP 2019 最佳论文】信息瓶颈专门化单词嵌入（用于解析）（Specializing Word Embeddings（for Parsing）by Information Bottleneck）

专知会员服务

24+阅读 · 2019年11月20日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

【AAAI2021】基于图神经网络的文本语义匹配算法

【AAAI2021】基于图神经网络的文本语义匹配算法

专知

17+阅读 · 2021年1月30日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

微软亚研院提出用于语义分割的结构化知识蒸馏 | CVPR 2019

微软亚研院提出用于语义分割的结构化知识蒸馏 | CVPR 2019

AI100

10+阅读 · 2019年3月16日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

《pyramid Attention Network for Semantic Segmentation》

《pyramid Attention Network for Semantic Segmentation》

统计学习与视觉计算组

44+阅读 · 2018年8月30日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【论文笔记】用图卷积网络( GCN)来做语义角色标注

【论文笔记】用图卷积网络( GCN)来做语义角色标注

专知

61+阅读 · 2018年5月26日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络的情感语义词典的自动构建技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

LogiPart: Local Large Language Models for Data Exploration at Scale with Logical Partitioning

Arxiv

0+阅读 · 2月17日

BETA-Labeling for Multilingual Dataset Construction in Low-Resource IR

Arxiv

0+阅读 · 2月16日

Annotation-Efficient Vision-Language Model Adaptation to the Polish Language Using the LLaVA Framework

Arxiv

0+阅读 · 2月15日

Semantic Search At LinkedIn

Arxiv

0+阅读 · 2月7日

Visual Word Sense Disambiguation with CLIP through Dual-Channel Text Prompting and Image Augmentations

Arxiv

0+阅读 · 2月6日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

StraTyper: Automated Semantic Type Discovery and Multi-Type Annotation for Dataset Collections

Arxiv

0+阅读 · 2月3日

The taggedPBC: Annotating a massive parallel corpus for crosslinguistic investigations

Arxiv

0+阅读 · 1月24日

The Role of Mixed-Language Documents for Multilingual Large Language Model Pretraining

Arxiv

0+阅读 · 1月23日

A Tool for Semantic-Aware Spatial Corpus Construction

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

0+阅读 · 今天14:41

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

2+阅读 · 今天14:37

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

2+阅读 · 今天14:13

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

2+阅读 · 今天14:11

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

2+阅读 · 今天14:05

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

2+阅读 · 今天13:23

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

1+阅读 · 今天13:11

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

11+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

相关VIP内容

【CVPR2022】语言作为查询的参考视频目标分割框架

【CVPR2022】语言作为查询的参考视频目标分割框架

专知会员服务

10+阅读 · 2022年4月27日

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

专知会员服务

35+阅读 · 2021年12月17日

【干货书】面向机器学习的自然语言标注，341页pdf

【干货书】面向机器学习的自然语言标注，341页pdf

专知会员服务

68+阅读 · 2021年2月7日

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

专知会员服务

23+阅读 · 2020年11月14日

【PNAS2020-斯坦福】自监督训练的人工神经网络中的涌现语言结构

【PNAS2020-斯坦福】自监督训练的人工神经网络中的涌现语言结构

专知会员服务

20+阅读 · 2020年6月5日

【SIGIR2020-中科院】TAGNN: 基于会话推荐的目标注意力图神经网络，TAGNN: Target Attentive Graph Neural Networks for Session-based Recommendation

【SIGIR2020-中科院】TAGNN: 基于会话推荐的目标注意力图神经网络，TAGNN: Target Attentive Graph Neural Networks for Session-based Recommendation

专知会员服务

42+阅读 · 2020年5月10日

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

专知会员服务

42+阅读 · 2020年3月17日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

93+阅读 · 2019年12月22日

【EMNLP 2019 最佳论文】信息瓶颈专门化单词嵌入（用于解析）（Specializing Word Embeddings（for Parsing）by Information Bottleneck）

【EMNLP 2019 最佳论文】信息瓶颈专门化单词嵌入（用于解析）（Specializing Word Embeddings（for Parsing）by Information Bottleneck）

专知会员服务

24+阅读 · 2019年11月20日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

【AAAI2021】基于图神经网络的文本语义匹配算法

【AAAI2021】基于图神经网络的文本语义匹配算法

专知

17+阅读 · 2021年1月30日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

微软亚研院提出用于语义分割的结构化知识蒸馏 | CVPR 2019

微软亚研院提出用于语义分割的结构化知识蒸馏 | CVPR 2019

AI100

10+阅读 · 2019年3月16日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

《pyramid Attention Network for Semantic Segmentation》

《pyramid Attention Network for Semantic Segmentation》

统计学习与视觉计算组

44+阅读 · 2018年8月30日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【论文笔记】用图卷积网络( GCN)来做语义角色标注

【论文笔记】用图卷积网络( GCN)来做语义角色标注

专知

61+阅读 · 2018年5月26日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

LogiPart: Local Large Language Models for Data Exploration at Scale with Logical Partitioning

Arxiv

0+阅读 · 2月17日

BETA-Labeling for Multilingual Dataset Construction in Low-Resource IR

Arxiv

0+阅读 · 2月16日

Annotation-Efficient Vision-Language Model Adaptation to the Polish Language Using the LLaVA Framework

Arxiv

0+阅读 · 2月15日

Semantic Search At LinkedIn

Arxiv

0+阅读 · 2月7日

Visual Word Sense Disambiguation with CLIP through Dual-Channel Text Prompting and Image Augmentations

Arxiv

0+阅读 · 2月6日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

StraTyper: Automated Semantic Type Discovery and Multi-Type Annotation for Dataset Collections

Arxiv

0+阅读 · 2月3日

The taggedPBC: Annotating a massive parallel corpus for crosslinguistic investigations

Arxiv

0+阅读 · 1月24日

The Role of Mixed-Language Documents for Multilingual Large Language Model Pretraining

Arxiv

0+阅读 · 1月23日

A Tool for Semantic-Aware Spatial Corpus Construction

Arxiv

0+阅读 · 1月21日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络的情感语义词典的自动构建技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员