In industry NLP application, our manually labeled data has a certain number of noisy data. We present a simple method to find the noisy data and relabel them manually, meanwhile we collect the correction information. Then we present novel method to incorporate the human correction information into deep learning model. Human know how to correct noisy data. So the correction information can be inject into deep learning model. We do the experiment on our own text classification dataset, which is manually labeled, because we relabel the noisy data in our dataset for our industry application. The experiment result shows that our method improve the classification accuracy from 91.7% to 92.5%. The 91.7% baseline is based on BERT training on the corrected dataset, which is hard to surpass.


翻译:在工业NLP应用程序中,我们手工标签的数据含有一定数量的噪音数据。我们提出了一个简单的方法来查找噪音数据并手工重新标签,同时我们收集更正信息。然后我们将新的方法将人类校正信息纳入深层学习模式。人类知道如何校正噪音数据。因此,校正信息可以输入深层学习模式。我们用人工标签在自己的文本分类数据集上做实验,因为我们将噪音数据重新贴在我们的行业应用程序的数据集中。实验结果显示,我们的方法提高了分类准确性,从91.7%提高到92.5%。91.7%的基线是基于对校正数据集的BERT培训,这很难超过。

1
下载
关闭预览

相关内容

专知会员服务
78+阅读 · 2021年9月27日
【如何做研究】How to research ,22页ppt
专知会员服务
114+阅读 · 2021年4月17日
最新《几何深度学习》教程,100页ppt,Geometric Deep Learning
专知会员服务
104+阅读 · 2020年7月16日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
RL 真经
CreateAMind
6+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Deep Randomized Ensembles for Metric Learning
Arxiv
5+阅读 · 2018年9月4日
Paraphrase Generation with Deep Reinforcement Learning
Learning to Focus when Ranking Answers
Arxiv
5+阅读 · 2018年8月8日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
17+阅读 · 2018年4月2日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
5+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
10+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
RL 真经
CreateAMind
6+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
相关论文
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Deep Randomized Ensembles for Metric Learning
Arxiv
5+阅读 · 2018年9月4日
Paraphrase Generation with Deep Reinforcement Learning
Learning to Focus when Ranking Answers
Arxiv
5+阅读 · 2018年8月8日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
17+阅读 · 2018年4月2日
Top
微信扫码咨询专知VIP会员