Natural language processing for the Turkic language family, spoken by over 200 million people across Eurasia, remains fragmented, with most languages lacking unified tooling and resources. We present TurkicNLP, an open-source Python library providing a single, consistent NLP pipeline for Turkic languages across four script families: Latin, Cyrillic, Perso-Arabic, and Old Turkic Runic. The library covers tokenization, morphological analysis, part-of-speech tagging, dependency parsing, named entity recognition, bidirectional script transliteration, cross-lingual sentence embeddings, and machine translation through one language-agnostic API. A modular multi-backend architecture integrates rule-based finite-state transducers and neural models transparently, with automatic script detection and routing between script variants. Outputs follow the CoNLL-U standard for full interoperability and extension. Code and documentation are hosted at https://github.com/turkic-nlp/turkicnlp .


翻译:针对欧亚大陆超过两亿人使用的突厥语族的自然语言处理,其资源与工具仍处于碎片化状态,大多数语言缺乏统一的工具和资源。我们推出TurkicNLP,这是一个开源的Python库,为跨越四种文字体系(拉丁、西里尔、波斯-阿拉伯和古突厥如尼文)的突厥语族提供了一个单一、一致的NLP处理流程。该库通过一个语言无关的API,涵盖了分词、形态分析、词性标注、依存句法分析、命名实体识别、双向文字转写、跨语言句子嵌入以及机器翻译等功能。其模块化的多后端架构无缝集成了基于规则的有限状态转录器和神经模型,并具备自动文字检测和不同文字变体间的路由功能。输出遵循CoNLL-U标准,确保了完全的互操作性和可扩展性。代码和文档托管于 https://github.com/turkic-nlp/turkicnlp。

0
下载
关闭预览

相关内容

专知会员服务
133+阅读 · 2021年6月18日
【干货书】Pytorch自然语言处理,210页pdf
专知会员服务
166+阅读 · 2020年10月30日
自然语言处理NLP之旅(NLP文章/代码集锦)
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
自然语言处理工具包spaCy介绍
AINLP
18+阅读 · 2016年11月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2024年5月21日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
1+阅读 · 49分钟前
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
4+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
3+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
4+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关VIP内容
专知会员服务
133+阅读 · 2021年6月18日
【干货书】Pytorch自然语言处理,210页pdf
专知会员服务
166+阅读 · 2020年10月30日
相关资讯
自然语言处理NLP之旅(NLP文章/代码集锦)
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
自然语言处理工具包spaCy介绍
AINLP
18+阅读 · 2016年11月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员