SiDiaC: Sinhala Diachronic Corpus - 专知论文

会员服务 ·

0

语料 · 语料库 · 标注 · 包含 · 图书 ·

2025 年 12 月 30 日

SiDiaC: Sinhala Diachronic Corpus

翻译：SiDiaC：僧伽罗语历时语料库

Nevidu Jayatilleke,Nisansa de Silva

from arxiv, 17 pages, 7 figures, 9 tables, Accepted paper at the 39th Pacific Asia Conference on Language, Information and Computation (PACLIC 39)

SiDiaC, the first comprehensive Sinhala Diachronic Corpus, covers a historical span from the 5th to the 20th century CE. SiDiaC comprises 58k words across 46 literary works, annotated carefully based on the written date, after filtering based on availability, authorship, copyright compliance, and data attribution. Texts from the National Library of Sri Lanka were digitised using Google Document AI OCR, followed by post-processing to correct formatting and modernise the orthography. The construction of SiDiaC was informed by practices from other corpora, such as FarPaHC, particularly in syntactic annotation and text normalisation strategies, due to the shared characteristics of low-resourced language status. This corpus is categorised based on genres into two layers: primary and secondary. Primary categorisation is binary, classifying each book into Non-Fiction or Fiction, while the secondary categorisation is more specific, grouping texts under Religious, History, Poetry, Language, and Medical genres. Despite challenges including limited access to rare texts and reliance on secondary date sources, SiDiaC serves as a foundational resource for Sinhala NLP, significantly extending the resources available for Sinhala, enabling diachronic studies in lexical change, neologism tracking, historical syntax, and corpus-based lexicography.

翻译：SiDiaC是首个全面的僧伽罗语历时语料库，其历史跨度涵盖公元5世纪至20世纪。该语料库包含46部文学作品中的58,000个单词，在根据可获得性、作者身份、版权合规性和数据归属进行筛选后，依据书面日期进行了仔细标注。来自斯里兰卡国家图书馆的文本使用Google Document AI OCR进行数字化，随后通过后处理以纠正格式并使正字法现代化。SiDiaC的构建借鉴了其他语料库（如FarPaHC）的实践，特别是在句法标注和文本规范化策略方面，这是由于它们共享低资源语言状态的特性。该语料库根据体裁分为两个层级：主要分类和次要分类。主要分类是二元的，将每本书归类为非虚构或虚构作品；而次要分类则更为具体，将文本归类于宗教、历史、诗歌、语言和医学等体裁。尽管面临包括稀有文本获取有限和依赖二手日期来源在内的挑战，SiDiaC仍可作为僧伽罗语自然语言处理的基础资源，显著扩展了僧伽罗语可用的资源，使得词汇变化、新词追踪、历史句法和基于语料库的词典编纂等历时研究成为可能。

0

相关内容

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

AI预测历史？DeepMind 又发nature！使用Ithaca深度神经网络恢复和归因古代文本

AI预测历史？DeepMind 又发nature！使用Ithaca深度神经网络恢复和归因古代文本

专知会员服务

26+阅读 · 2022年3月10日

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

专知会员服务

47+阅读 · 2022年2月25日

南洋理工最新《视频自然语言定位》2022综述

南洋理工最新《视频自然语言定位》2022综述

专知会员服务

25+阅读 · 2022年1月29日

深度学习如何异常检测？看这份KDD2021《可解释深度异常检测》教程，附Slides

深度学习如何异常检测？看这份KDD2021《可解释深度异常检测》教程，附Slides

专知会员服务

120+阅读 · 2021年8月13日

信息检索顶会SIGIR2021最佳论文奖出炉，荷兰Radboud大学最佳论文，山东大学最佳学生论文

信息检索顶会SIGIR2021最佳论文奖出炉，荷兰Radboud大学最佳论文，山东大学最佳学生论文

专知会员服务

24+阅读 · 2021年7月14日

SIGIR2021接受论文列表公布！151篇论文都在这了！

专知会员服务

38+阅读 · 2021年4月27日

【SIGIR2020】学习词项区分性，Learning Term Discrimination

【SIGIR2020】学习词项区分性，Learning Term Discrimination

专知会员服务

16+阅读 · 2020年4月28日

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

专知会员服务

21+阅读 · 2019年12月12日

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

专知会员服务

22+阅读 · 2019年11月2日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

收藏 | 中文公开聊天语料库及使用方法（附链接）

收藏 | 中文公开聊天语料库及使用方法（附链接）

THU数据派

10+阅读 · 2019年3月12日

中文公开聊天语料库

中文公开聊天语料库

专知

11+阅读 · 2019年3月9日

Jiagu：中文深度学习自然语言处理工具

Jiagu：中文深度学习自然语言处理工具

AINLP

90+阅读 · 2019年2月20日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

量子位

15+阅读 · 2018年11月16日

清华发布《2018自然语言处理研究报告》，65页PDF下载

清华发布《2018自然语言处理研究报告》，65页PDF下载

专知

29+阅读 · 2018年7月28日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

西藏拉萨地块寒武纪火山-沉积事件的构造意义

国家自然科学基金

0+阅读 · 2015年12月31日

末次冰期以来印度季风降雨在安达曼海中的沉积记录

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

中国绢蝶（凤蝶科：绢蝶亚科：绢蝶属）主要代表种类系统演化的时空格局及其相关地球环境背景

国家自然科学基金

0+阅读 · 2014年12月31日

特征-知识融合的考古遗址时空重建与分析方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

藏文化学术语规范化研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

云南少数民族服饰数据库、元素库构建与智能检索技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

西藏阿里地区外流河流域古代聚落与建筑研究

国家自然科学基金

0+阅读 · 2014年12月31日

Sinhala Physical Common Sense Reasoning Dataset for Global PIQA

Arxiv

0+阅读 · 2月2日

Quran-MD: A Fine-Grained Multilingual Multimodal Dataset of the Quran

Arxiv

0+阅读 · 1月25日

A Comprehensive Benchmark of Language Models on Unicode and Romanized Sinhala

Arxiv

0+阅读 · 1月21日

MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus

Arxiv

0+阅读 · 1月14日

Survey on Publicly Available Sinhala Natural Language Processing Tools and Research

Arxiv

0+阅读 · 1月12日

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

Arxiv

0+阅读 · 1月12日

Mitrasamgraha: A Comprehensive Classical Sanskrit Machine Translation Dataset

Arxiv

0+阅读 · 1月12日

Pragya: An AI-Based Semantic Recommendation System for Sanskrit Subhasitas

Arxiv

0+阅读 · 1月10日

Afri-MCQA: Multimodal Cultural Question Answering for African Languages

Arxiv

0+阅读 · 1月9日

LittiChoQA: Literary Texts in Indic Languages Chosen for Question Answering

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

AI预测历史？DeepMind 又发nature！使用Ithaca深度神经网络恢复和归因古代文本

AI预测历史？DeepMind 又发nature！使用Ithaca深度神经网络恢复和归因古代文本

专知会员服务

26+阅读 · 2022年3月10日

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

专知会员服务

47+阅读 · 2022年2月25日

南洋理工最新《视频自然语言定位》2022综述

南洋理工最新《视频自然语言定位》2022综述

专知会员服务

25+阅读 · 2022年1月29日

深度学习如何异常检测？看这份KDD2021《可解释深度异常检测》教程，附Slides

深度学习如何异常检测？看这份KDD2021《可解释深度异常检测》教程，附Slides

专知会员服务

120+阅读 · 2021年8月13日

信息检索顶会SIGIR2021最佳论文奖出炉，荷兰Radboud大学最佳论文，山东大学最佳学生论文

信息检索顶会SIGIR2021最佳论文奖出炉，荷兰Radboud大学最佳论文，山东大学最佳学生论文

专知会员服务

24+阅读 · 2021年7月14日

SIGIR2021接受论文列表公布！151篇论文都在这了！

专知会员服务

38+阅读 · 2021年4月27日

【SIGIR2020】学习词项区分性，Learning Term Discrimination

【SIGIR2020】学习词项区分性，Learning Term Discrimination

专知会员服务

16+阅读 · 2020年4月28日

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

专知会员服务

21+阅读 · 2019年12月12日

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

专知会员服务

22+阅读 · 2019年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

收藏 | 中文公开聊天语料库及使用方法（附链接）

收藏 | 中文公开聊天语料库及使用方法（附链接）

THU数据派

10+阅读 · 2019年3月12日

中文公开聊天语料库

中文公开聊天语料库

专知

11+阅读 · 2019年3月9日

Jiagu：中文深度学习自然语言处理工具

Jiagu：中文深度学习自然语言处理工具

AINLP

90+阅读 · 2019年2月20日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

量子位

15+阅读 · 2018年11月16日

清华发布《2018自然语言处理研究报告》，65页PDF下载

清华发布《2018自然语言处理研究报告》，65页PDF下载

专知

29+阅读 · 2018年7月28日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

Sinhala Physical Common Sense Reasoning Dataset for Global PIQA

Arxiv

0+阅读 · 2月2日

Quran-MD: A Fine-Grained Multilingual Multimodal Dataset of the Quran

Arxiv

0+阅读 · 1月25日

A Comprehensive Benchmark of Language Models on Unicode and Romanized Sinhala

Arxiv

0+阅读 · 1月21日

MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus

Arxiv

0+阅读 · 1月14日

Survey on Publicly Available Sinhala Natural Language Processing Tools and Research

Arxiv

0+阅读 · 1月12日

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

Arxiv

0+阅读 · 1月12日

Mitrasamgraha: A Comprehensive Classical Sanskrit Machine Translation Dataset

Arxiv

0+阅读 · 1月12日

Pragya: An AI-Based Semantic Recommendation System for Sanskrit Subhasitas

Arxiv

0+阅读 · 1月10日

Afri-MCQA: Multimodal Cultural Question Answering for African Languages

Arxiv

0+阅读 · 1月9日

LittiChoQA: Literary Texts in Indic Languages Chosen for Question Answering

Arxiv

0+阅读 · 1月6日

相关基金

西藏拉萨地块寒武纪火山-沉积事件的构造意义

国家自然科学基金

0+阅读 · 2015年12月31日

末次冰期以来印度季风降雨在安达曼海中的沉积记录

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

中国绢蝶（凤蝶科：绢蝶亚科：绢蝶属）主要代表种类系统演化的时空格局及其相关地球环境背景

国家自然科学基金

0+阅读 · 2014年12月31日

特征-知识融合的考古遗址时空重建与分析方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

藏文化学术语规范化研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

云南少数民族服饰数据库、元素库构建与智能检索技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

西藏阿里地区外流河流域古代聚落与建筑研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员