Recent years have seen an increase in the number of large-scale multilingual NLP projects. However, even in such projects, languages with special processing requirements are often excluded. One such language is Japanese. Japanese is written without spaces, tokenization is non-trivial, and while high quality open source tokenizers exist they can be hard to use and lack English documentation. This paper introduces fugashi, a MeCab wrapper for Python, and gives an introduction to tokenizing Japanese.


翻译:近年来,大型多语言NLP项目的数量有所增加,但是,即使在这类项目中,也有特殊处理要求的语言也常常被排除在外。其中一种语言是日语。日语是日本语,没有空格写字,象征性化是非三维的,虽然存在高质量的开放源代码符号,但很难使用,也缺乏英文文件。 本文为Python介绍了有特殊处理要求的MeCab包装器Fugashi, 并介绍了象征性化日语。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
【新书】Python数据科学食谱(Python Data Science Cookbook)
专知会员服务
117+阅读 · 2020年1月1日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
已删除
AI科技评论
4+阅读 · 2018年8月12日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
专知会员服务
41+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
【新书】Python数据科学食谱(Python Data Science Cookbook)
专知会员服务
117+阅读 · 2020年1月1日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
相关资讯
已删除
AI科技评论
4+阅读 · 2018年8月12日
Top
微信扫码咨询专知VIP会员