We present fastHan, an open-source toolkit for four basic tasks in Chinese natural language processing: Chinese word segmentation (CWS), Part-of-Speech (POS) tagging, named entity recognition (NER), and dependency parsing. The backbone of fastHan is a multi-task model based on a pruned BERT, which uses the first 8 layers in BERT. We also provide a 4-layer base model compressed from the 8-layer model. The joint-model is trained and evaluated on 13 corpora of four tasks, yielding near state-of-the-art (SOTA) performance in dependency parsing and NER, achieving SOTA performance in CWS and POS. Besides, fastHan's transferability is also strong, performing much better than popular segmentation tools on a non-training corpus. To better meet the need of practical application, we allow users to use their own labeled data to further fine-tune fastHan. In addition to its small size and excellent performance, fastHan is user-friendly. Implemented as a python package, fastHan isolates users from the internal technical details and is convenient to use. The project is released on Github.


翻译:我们提出了快速汉,这是用于中国自然语言处理的四项基本任务的开放源码工具包:中文单词分割(CWS)、部分语音标记(POS),名称实体识别(NER)和依赖性剖析。快速汉的骨干是一个多任务模型,它基于一个使用BERT头8层的修剪 BERT。我们还从8层模式中压缩了一个四层基础模型。联合模型在13个有4个任务的公司进行培训和评价,在依赖性剖析和净化方面产生接近最先进的艺术(SOTA)性能,在CWS和POS中实现SOTA性能。此外,快速汉的可转移性也很强,比非培训系统中的流行分解工具要好得多。为了更好地满足实际应用的需要,我们允许用户使用自己的标签数据进一步微调快速Han。除了其小规模和出色性能外,快速Han还方便用户使用。快速Han在Python软件包中实施,快速Han的软件是方便地将Gian内部用户隔离。

1
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
85+阅读 · 2019年12月27日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
pytorch中文语言模型bert预训练代码
AINLP
3+阅读 · 2020年7月22日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
【Github】GPT2-Chinese:中文的GPT2训练代码
AINLP
52+阅读 · 2019年8月23日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
BERT相关论文、文章和代码资源汇总
AINLP
19+阅读 · 2018年11月17日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
8+阅读 · 2019年3月21日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
1+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关VIP内容
相关资讯
pytorch中文语言模型bert预训练代码
AINLP
3+阅读 · 2020年7月22日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
【Github】GPT2-Chinese:中文的GPT2训练代码
AINLP
52+阅读 · 2019年8月23日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
BERT相关论文、文章和代码资源汇总
AINLP
19+阅读 · 2018年11月17日
Top
微信扫码咨询专知VIP会员