SiDiaC-v.2.0 is the largest comprehensive Sinhala Diachronic Corpus to date, covering a period from 1800 CE to 1955 CE in terms of publication dates, and a historical span from the 5th to the 20th century CE in terms of written dates. The corpus consists of 244k words across 185 literary works that underwent thorough filtering, preprocessing, and copyright compliance checks, followed by extensive post-processing. Additionally, a subset of 59 documents totalling 70k words was annotated based on their written dates. Texts from the National Library of Sri Lanka were selected from the SiDiaC-v.1.0 non-filtered list, which was digitised using Google Document AI OCR. This was followed by post-processing to correct formatting issues, address code-mixing, include special tokens, and fix malformed tokens. The construction of SiDiaC-v.2.0 was informed by practices from other corpora, such as FarPaHC, SiDiaC-v.1.0, and CCOHA. This was particularly relevant for syntactic annotation and text normalisation strategies, given the shared characteristics of low-resource language status between Faroese and the similar cleaning strategies utilised in CCOHA. This corpus is categorised into two layers based on genres: primary and secondary. The primary categorisation is binary, assigning each book to either Non-Fiction or Fiction. The secondary categorisation is more detailed, grouping texts under specific genres such as Religious, History, Poetry, Language, and Medical. Despite facing challenges due to limited resources, SiDiaC-v.2.0 serves as a comprehensive resource for Sinhala NLP, building upon the work previously done in SiDiaC-v.1.0.


翻译:SiDiaC-v.2.0 是迄今为止规模最大、内容最全面的僧伽罗语历时语料库,其收录文献的出版日期覆盖公元1800年至1955年,而文本的书写年代则跨越了公元5世纪至20世纪。该语料库包含185部文学作品,共计24.4万词,所有文本均经过了严格的筛选、预处理和版权合规性检查,并进行了大量的后处理工作。此外,我们还根据书写年代对其中59份文档(总计7万词)进行了子集标注。文本选自斯里兰卡国家图书馆的SiDiaC-v.1.0未过滤列表,这些文本最初通过Google Document AI OCR进行数字化。随后通过后处理来修正格式问题、处理语码混合、纳入特殊标记并修复畸形标记。SiDiaC-v.2.0的构建借鉴了其他语料库(如FarPaHC、SiDiaC-v.1.0和CCOHA)的实践经验。考虑到法罗语与僧伽罗语同为低资源语言,以及CCOHA中采用的类似清洗策略,这些经验在句法标注和文本规范化策略方面尤其具有参考价值。本语料库根据体裁分为两个层级:主要分类和次要分类。主要分类是二元的,将每部书籍归类为非虚构类或虚构类。次要分类则更为详细,将文本按特定体裁分组,例如宗教、历史、诗歌、语言和医学。尽管面临资源有限的挑战,SiDiaC-v.2.0在先前SiDiaC-v.1.0工作的基础上,为僧伽罗语自然语言处理研究提供了一个全面的资源。

0
下载
关闭预览

相关内容

重磅!《大语言模型》新书出炉,人大出版,391页pdf
专知会员服务
201+阅读 · 2024年4月15日
85页pdf最新版!《大语言模型综述》
专知会员服务
174+阅读 · 2023年7月7日
专知会员服务
38+阅读 · 2021年4月27日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《对信息环境分析实现人工智能预测冲突》96页
专知会员服务
3+阅读 · 今天9:59
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
4+阅读 · 今天9:41
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 今天9:02
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
6+阅读 · 今天8:51
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
8+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
相关VIP内容
重磅!《大语言模型》新书出炉,人大出版,391页pdf
专知会员服务
201+阅读 · 2024年4月15日
85页pdf最新版!《大语言模型综述》
专知会员服务
174+阅读 · 2023年7月7日
专知会员服务
38+阅读 · 2021年4月27日
相关资讯
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员