Survey on Publicly Available Sinhala Natural Language Processing Tools and Research - 专知论文

会员服务 ·

0

语言处理 · 工具 · 自然语言处理 · 综述 · 研究成果 ·

Survey on Publicly Available Sinhala Natural Language Processing Tools and Research

翻译：僧伽罗语自然语言处理公开工具与研究综述

Nisansa de Silva

Sinhala is the native language of the Sinhalese people who make up the largest ethnic group of Sri Lanka. The language belongs to the globe-spanning language tree, Indo-European. However, due to poverty in both linguistic and economic capital, Sinhala, in the perspective of Natural Language Processing tools and research, remains a resource-poor language which has neither the economic drive its cousin English has nor the sheer push of the law of numbers a language such as Chinese has. A number of research groups from Sri Lanka have noticed this dearth and the resultant dire need for proper tools and research for Sinhala natural language processing. However, due to various reasons, these attempts seem to lack coordination and awareness of each other. The objective of this paper is to fill that gap of a comprehensive literature survey of the publicly available Sinhala natural language tools and research so that the researchers working in this field can better utilize contributions of their peers. As such, we shall be uploading this paper to arXiv and perpetually update it periodically to reflect the advances made in the field.

翻译：僧伽罗语是斯里兰卡主体民族僧伽罗人的母语，属于印欧语系这一全球性语系。然而，由于语言资本与经济资本的双重匮乏，从自然语言处理工具与研究的视角来看，僧伽罗语仍属于资源贫乏型语言：它既缺乏其近亲英语所具备的经济驱动力，也不具备汉语等语言凭借使用者数量形成的规模优势。斯里兰卡的多个研究团队已注意到这种匮乏状态，以及由此产生的对僧伽罗语自然语言处理专用工具与研究的迫切需求。但由于种种原因，这些尝试似乎缺乏相互间的协调与认知。本文旨在填补这一空白，对公开可用的僧伽罗语自然语言处理工具与研究进行全面文献综述，以帮助该领域研究者更好地利用同行的研究成果。为此，我们将把本文上传至arXiv平台，并建立持续更新机制，定期反映领域进展。

0

相关内容

语言处理

【开放书】《面向自然语言处理的表示学习》，清华大学，Representation Learning for Natural Language Processing

【开放书】《面向自然语言处理的表示学习》，清华大学，Representation Learning for Natural Language Processing

专知会员服务

37+阅读 · 2022年3月24日

特约专栏丨孙茂松教授——自然语言处理一瞥：知往鉴今瞻未来

特约专栏丨孙茂松教授——自然语言处理一瞥：知往鉴今瞻未来

专知会员服务

25+阅读 · 2022年3月13日

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

专知会员服务

47+阅读 · 2022年2月25日

自然语言处理预训练技术综述

专知会员服务

86+阅读 · 2021年8月20日

【干货书】Python自然语言处理，504页pdf

专知会员服务

134+阅读 · 2021年6月18日

最新《低资源自然语言处理》综述论文，21页pdf

最新《低资源自然语言处理》综述论文，21页pdf

专知会员服务

61+阅读 · 2020年10月27日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

专知会员服务

84+阅读 · 2019年11月20日

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

深度学习自然语言处理

13+阅读 · 2020年4月6日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

自然语言处理精品资料

自然语言处理精品资料

人工智能前沿讲习班

14+阅读 · 2019年3月13日

资源 | 《自然语言处理综论》中文版 PDF 高清版

资源 | 《自然语言处理综论》中文版 PDF 高清版

AI科技评论

104+阅读 · 2019年2月23日

Jiagu：中文深度学习自然语言处理工具

Jiagu：中文深度学习自然语言处理工具

AINLP

90+阅读 · 2019年2月20日

如何入门自然语言处理？希望这些资料能帮到你

如何入门自然语言处理？希望这些资料能帮到你

专知

13+阅读 · 2018年10月18日

清华发布《2018自然语言处理研究报告》，65页PDF下载

清华发布《2018自然语言处理研究报告》，65页PDF下载

专知

29+阅读 · 2018年7月28日

自然语言处理最新教材开放下载，乔治亚理工大学官方推荐

自然语言处理最新教材开放下载，乔治亚理工大学官方推荐

机器之心

13+阅读 · 2018年6月3日

【NLP】十分钟快览自然语言处理学习总结

【NLP】十分钟快览自然语言处理学习总结

专知

17+阅读 · 2017年11月21日

NLP（自然语言处理）扫盲

NLP（自然语言处理）扫盲

大数据和云计算技术

20+阅读 · 2017年7月9日

中国寒武纪软舌螺动物系统分类学、解剖学及埋藏学研究

国家自然科学基金

0+阅读 · 2016年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语-泰语跨语言新闻事件检索方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

藏文化学术语规范化研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

西藏阿里地区外流河流域古代聚落与建筑研究

国家自然科学基金

0+阅读 · 2014年12月31日

OpenSeal: Good, Fast, and Cheap Construction of an Open-Source Southeast Asian LLM via Parallel Data

Arxiv

0+阅读 · 2月2日

Sinhala Physical Common Sense Reasoning Dataset for Global PIQA

Arxiv

0+阅读 · 2月2日

A Comprehensive Benchmark of Language Models on Unicode and Romanized Sinhala

Arxiv

0+阅读 · 1月21日

Re-educating Educated Ones: A Case Study on Chakma Language Revitalization in Chittagong Hill Tracts

Arxiv

0+阅读 · 1月18日

Chandomitra: Towards Generating Structured Sanskrit Poetry from Natural Language Inputs

Arxiv

0+阅读 · 1月16日

WenetSpeech-Wu: Datasets, Benchmarks, and Models for a Unified Chinese Wu Dialect Speech Processing Ecosystem

Arxiv

0+阅读 · 1月16日

INDIC DIALECT: A Multi Task Benchmark to Evaluate and Translate in Indian Language Dialects

Arxiv

0+阅读 · 1月15日

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

Arxiv

0+阅读 · 1月12日

Mitrasamgraha: A Comprehensive Classical Sanskrit Machine Translation Dataset

Arxiv

0+阅读 · 1月12日

Natural Language Processing for Tigrinya: Current State and Future Directions

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

自然语言处理

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

0+阅读 · 11分钟前

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

0+阅读 · 13分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

1+阅读 · 25分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

1+阅读 · 36分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

1+阅读 · 45分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

1+阅读 · 49分钟前

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

1+阅读 · 53分钟前

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

1+阅读 · 57分钟前

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【开放书】《面向自然语言处理的表示学习》，清华大学，Representation Learning for Natural Language Processing

【开放书】《面向自然语言处理的表示学习》，清华大学，Representation Learning for Natural Language Processing

专知会员服务

37+阅读 · 2022年3月24日

特约专栏丨孙茂松教授——自然语言处理一瞥：知往鉴今瞻未来

特约专栏丨孙茂松教授——自然语言处理一瞥：知往鉴今瞻未来

专知会员服务

25+阅读 · 2022年3月13日

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

专知会员服务

47+阅读 · 2022年2月25日

自然语言处理预训练技术综述

专知会员服务

86+阅读 · 2021年8月20日

【干货书】Python自然语言处理，504页pdf

专知会员服务

134+阅读 · 2021年6月18日

最新《低资源自然语言处理》综述论文，21页pdf

最新《低资源自然语言处理》综述论文，21页pdf

专知会员服务

61+阅读 · 2020年10月27日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

专知会员服务

84+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

深度学习自然语言处理

13+阅读 · 2020年4月6日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

自然语言处理精品资料

自然语言处理精品资料

人工智能前沿讲习班

14+阅读 · 2019年3月13日

资源 | 《自然语言处理综论》中文版 PDF 高清版

资源 | 《自然语言处理综论》中文版 PDF 高清版

AI科技评论

104+阅读 · 2019年2月23日

Jiagu：中文深度学习自然语言处理工具

Jiagu：中文深度学习自然语言处理工具

AINLP

90+阅读 · 2019年2月20日

如何入门自然语言处理？希望这些资料能帮到你

如何入门自然语言处理？希望这些资料能帮到你

专知

13+阅读 · 2018年10月18日

清华发布《2018自然语言处理研究报告》，65页PDF下载

清华发布《2018自然语言处理研究报告》，65页PDF下载

专知

29+阅读 · 2018年7月28日

自然语言处理最新教材开放下载，乔治亚理工大学官方推荐

自然语言处理最新教材开放下载，乔治亚理工大学官方推荐

机器之心

13+阅读 · 2018年6月3日

【NLP】十分钟快览自然语言处理学习总结

【NLP】十分钟快览自然语言处理学习总结

专知

17+阅读 · 2017年11月21日

NLP（自然语言处理）扫盲

NLP（自然语言处理）扫盲

大数据和云计算技术

20+阅读 · 2017年7月9日

相关论文

OpenSeal: Good, Fast, and Cheap Construction of an Open-Source Southeast Asian LLM via Parallel Data

Arxiv

0+阅读 · 2月2日

Sinhala Physical Common Sense Reasoning Dataset for Global PIQA

Arxiv

0+阅读 · 2月2日

A Comprehensive Benchmark of Language Models on Unicode and Romanized Sinhala

Arxiv

0+阅读 · 1月21日

Re-educating Educated Ones: A Case Study on Chakma Language Revitalization in Chittagong Hill Tracts

Arxiv

0+阅读 · 1月18日

Chandomitra: Towards Generating Structured Sanskrit Poetry from Natural Language Inputs

Arxiv

0+阅读 · 1月16日

WenetSpeech-Wu: Datasets, Benchmarks, and Models for a Unified Chinese Wu Dialect Speech Processing Ecosystem

Arxiv

0+阅读 · 1月16日

INDIC DIALECT: A Multi Task Benchmark to Evaluate and Translate in Indian Language Dialects

Arxiv

0+阅读 · 1月15日

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

Arxiv

0+阅读 · 1月12日

Mitrasamgraha: A Comprehensive Classical Sanskrit Machine Translation Dataset

Arxiv

0+阅读 · 1月12日

Natural Language Processing for Tigrinya: Current State and Future Directions

Arxiv

0+阅读 · 2025年12月30日

相关基金

中国寒武纪软舌螺动物系统分类学、解剖学及埋藏学研究

国家自然科学基金

0+阅读 · 2016年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语-泰语跨语言新闻事件检索方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

藏文化学术语规范化研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

西藏阿里地区外流河流域古代聚落与建筑研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员