Natural language processing for the Turkic language family, spoken by over 200 million people across Eurasia, remains fragmented, with most languages lacking unified tooling and resources. We present TurkicNLP, an open-source Python library providing a single, consistent NLP pipeline for Turkic languages across four script families: Latin, Cyrillic, Perso-Arabic, and Old Turkic Runic. The library covers tokenization, morphological analysis, part-of-speech tagging, dependency parsing, named entity recognition, bidirectional script transliteration, cross-lingual sentence embeddings, and machine translation through one language-agnostic API. A modular multi-backend architecture integrates rule-based finite-state transducers and neural models transparently, with automatic script detection and routing between script variants. Outputs follow the CoNLL-U standard for full interoperability and extension. Code and documentation are hosted at https://github.com/turkic-nlp/turkicnlp .


翻译:针对欧亚大陆超过两亿人使用的突厥语族的自然语言处理,其资源与工具仍处于碎片化状态,大多数语言缺乏统一的工具和资源。我们推出TurkicNLP,这是一个开源的Python库,为跨越四种文字体系(拉丁、西里尔、波斯-阿拉伯和古突厥如尼文)的突厥语族提供了一个单一、一致的NLP处理流程。该库通过一个语言无关的API,涵盖了分词、形态分析、词性标注、依存句法分析、命名实体识别、双向文字转写、跨语言句子嵌入以及机器翻译等功能。其模块化的多后端架构无缝集成了基于规则的有限状态转录器和神经模型,并具备自动文字检测和不同文字变体间的路由功能。输出遵循CoNLL-U标准,确保了完全的互操作性和可扩展性。代码和文档托管于 https://github.com/turkic-nlp/turkicnlp。

0
下载
关闭预览

相关内容

专知会员服务
132+阅读 · 2021年6月18日
【干货书】Pytorch自然语言处理,210页pdf
专知会员服务
166+阅读 · 2020年10月30日
自然语言处理NLP之旅(NLP文章/代码集锦)
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
自然语言处理工具包spaCy介绍
AINLP
18+阅读 · 2016年11月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
最新内容
《对信息环境分析实现人工智能预测冲突》96页
专知会员服务
3+阅读 · 今天9:59
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
4+阅读 · 今天9:41
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 今天9:02
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
6+阅读 · 今天8:51
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
8+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
相关VIP内容
专知会员服务
132+阅读 · 2021年6月18日
【干货书】Pytorch自然语言处理,210页pdf
专知会员服务
166+阅读 · 2020年10月30日
相关资讯
自然语言处理NLP之旅(NLP文章/代码集锦)
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
自然语言处理工具包spaCy介绍
AINLP
18+阅读 · 2016年11月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员