Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy - 专知论文

会员服务 ·

0

数据集 · 法律 · 新闻 · 语言资源 · 包含 ·

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy

翻译：斯里兰卡文档数据集：面向法律、新闻与政策的大规模多语言资源

Nuwan I. Senaratna

from arxiv, 4 pages. 253,817 documents (72.2 GB) across 26 datasets in Sinhala, Tamil, and English. Last updated on 2026-02-10 (10:51am)

We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 253,817 documents (72.2 GB) across 26 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2026-02-10-1051.

翻译：本文介绍了一套开放的、机器可读的文档数据集集合，涵盖斯里兰卡的议会记录、法律判决、政府出版物、新闻及旅游统计数据。该集合目前包含26个数据集，共计253,817份文档（72.2 GB），涉及僧伽罗语、泰米尔语和英语。数据集每日更新，并在GitHub和Hugging Face平台同步镜像。这些资源旨在支持计算语言学、法律分析、社会政治研究以及多语言自然语言处理等领域的研究。我们详细描述了数据来源、收集流程、格式规范及潜在应用场景，同时探讨了相关许可协议与伦理考量。本手稿版本为v2026-02-10-1051。

0

相关内容

数据集

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

专知会员服务

46+阅读 · 2023年8月27日

《SLANG（语言学分析指南摘要）及其在军事文本分析中的应用》2023最新18页论文

《SLANG（语言学分析指南摘要）及其在军事文本分析中的应用》2023最新18页论文

专知会员服务

27+阅读 · 2023年5月5日

文档智能: 数据集、模型和应用

文档智能: 数据集、模型和应用

专知会员服务

63+阅读 · 2022年7月31日

【开放书】《经济与金融数据科学》，357页pdf，欧盟委员会联合研究中心，Data Science for Economics and Finance

【开放书】《经济与金融数据科学》，357页pdf，欧盟委员会联合研究中心，Data Science for Economics and Finance

专知会员服务

42+阅读 · 2022年3月24日

10篇百度KDD2020论文: 知识图谱、智能交通、智能推荐、图神经网络、人机交互、科学防疫

10篇百度KDD2020论文: 知识图谱、智能交通、智能推荐、图神经网络、人机交互、科学防疫

专知会员服务

61+阅读 · 2020年7月26日

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

专知会员服务

27+阅读 · 2020年7月24日

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

专知会员服务

84+阅读 · 2020年4月9日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

专知会员服务

199+阅读 · 2020年2月1日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

自然语言处理常见数据集、论文最全整理分享

自然语言处理常见数据集、论文最全整理分享

深度学习与NLP

11+阅读 · 2019年1月26日

干货 | 100+个NLP数据集大放送，再不愁数据！

干货 | 100+个NLP数据集大放送，再不愁数据！

数据派THU

11+阅读 · 2018年5月2日

自然语言处理领域公开数据集

自然语言处理领域公开数据集

黑龙江大学自然语言处理实验室

67+阅读 · 2018年4月19日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

自然语言处理数据集免费资源开放（附学习资料）

自然语言处理数据集免费资源开放（附学习资料）

数据派THU

17+阅读 · 2017年10月2日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

天文多节点海量数据归档的关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

备份系统中基于语义挖掘的多层次冗余消除关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向复杂情报的大数据分析方法与决策支持

国家自然科学基金

43+阅读 · 2014年12月31日

面向汉语-泰语跨语言新闻事件检索方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction

SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction

Arxiv

0+阅读 · 3月16日

SloPal: A 60-Million-Word Slovak Parliamentary Corpus with Aligned Speech and Fine-Tuned ASR Models

SloPal: A 60-Million-Word Slovak Parliamentary Corpus with Aligned Speech and Fine-Tuned ASR Models

Arxiv

0+阅读 · 3月16日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月6日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月5日

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Arxiv

0+阅读 · 3月4日

PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

Arxiv

0+阅读 · 2月22日

Supercharging Agenda Setting Research: The ParlaCAP Dataset of 28 European Parliaments and a Scalable Multilingual LLM-Based Classification

Arxiv

0+阅读 · 2月18日

TFD: A Comprehensive Structured Tibetan Foundation Dataset for Low-Resource Language Processing and Large-Scale Modeling

Arxiv

0+阅读 · 2月14日

Towards Personalized Bangla Book Recommendation: A Large-Scale Multi-Entity Book Graph Dataset

Arxiv

0+阅读 · 2月12日

Detecting Latin in Historical Books with Large Language Models: A Multimodal Benchmark

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

最新内容

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

9+阅读 · 今天10:44

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

5+阅读 · 今天10:12

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

6+阅读 · 今天9:56

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

5+阅读 · 今天10:09

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

5+阅读 · 今天9:53

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

4+阅读 · 今天9:51

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

4+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

4+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

9+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

9+阅读 · 6月14日

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

专知会员服务

12+阅读 · 6月14日

《无人水面艇文献综述与结构设计》135页

《无人水面艇文献综述与结构设计》135页

专知会员服务

13+阅读 · 6月13日

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

专知会员服务

11+阅读 · 6月13日

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

2+阅读 · 6月13日

智能体时间序列系统全景综述：架构、可靠性与研究前沿

智能体时间序列系统全景综述：架构、可靠性与研究前沿

专知会员服务

11+阅读 · 6月13日

相关VIP内容

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

专知会员服务

46+阅读 · 2023年8月27日

《SLANG（语言学分析指南摘要）及其在军事文本分析中的应用》2023最新18页论文

《SLANG（语言学分析指南摘要）及其在军事文本分析中的应用》2023最新18页论文

专知会员服务

27+阅读 · 2023年5月5日

文档智能: 数据集、模型和应用

文档智能: 数据集、模型和应用

专知会员服务

63+阅读 · 2022年7月31日

【开放书】《经济与金融数据科学》，357页pdf，欧盟委员会联合研究中心，Data Science for Economics and Finance

【开放书】《经济与金融数据科学》，357页pdf，欧盟委员会联合研究中心，Data Science for Economics and Finance

专知会员服务

42+阅读 · 2022年3月24日

10篇百度KDD2020论文: 知识图谱、智能交通、智能推荐、图神经网络、人机交互、科学防疫

10篇百度KDD2020论文: 知识图谱、智能交通、智能推荐、图神经网络、人机交互、科学防疫

专知会员服务

61+阅读 · 2020年7月26日

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

专知会员服务

27+阅读 · 2020年7月24日

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

专知会员服务

84+阅读 · 2020年4月9日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

专知会员服务

199+阅读 · 2020年2月1日

热门VIP内容

开通专知VIP会员享更多权益服务

消耗优势：美军的“精确规模化”概念

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

相关资讯

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

自然语言处理常见数据集、论文最全整理分享

自然语言处理常见数据集、论文最全整理分享

深度学习与NLP

11+阅读 · 2019年1月26日

干货 | 100+个NLP数据集大放送，再不愁数据！

干货 | 100+个NLP数据集大放送，再不愁数据！

数据派THU

11+阅读 · 2018年5月2日

自然语言处理领域公开数据集

自然语言处理领域公开数据集

黑龙江大学自然语言处理实验室

67+阅读 · 2018年4月19日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

自然语言处理数据集免费资源开放（附学习资料）

自然语言处理数据集免费资源开放（附学习资料）

数据派THU

17+阅读 · 2017年10月2日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

相关论文

SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction

SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction

Arxiv

0+阅读 · 3月16日

SloPal: A 60-Million-Word Slovak Parliamentary Corpus with Aligned Speech and Fine-Tuned ASR Models

SloPal: A 60-Million-Word Slovak Parliamentary Corpus with Aligned Speech and Fine-Tuned ASR Models

Arxiv

0+阅读 · 3月16日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月6日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月5日

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Arxiv

0+阅读 · 3月4日

PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

Arxiv

0+阅读 · 2月22日

Supercharging Agenda Setting Research: The ParlaCAP Dataset of 28 European Parliaments and a Scalable Multilingual LLM-Based Classification

Arxiv

0+阅读 · 2月18日

TFD: A Comprehensive Structured Tibetan Foundation Dataset for Low-Resource Language Processing and Large-Scale Modeling

Arxiv

0+阅读 · 2月14日

Towards Personalized Bangla Book Recommendation: A Large-Scale Multi-Entity Book Graph Dataset

Arxiv

0+阅读 · 2月12日

Detecting Latin in Historical Books with Large Language Models: A Multimodal Benchmark

Arxiv

0+阅读 · 2月6日

相关基金

天文多节点海量数据归档的关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

备份系统中基于语义挖掘的多层次冗余消除关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向复杂情报的大数据分析方法与决策支持

国家自然科学基金

43+阅读 · 2014年12月31日

面向汉语-泰语跨语言新闻事件检索方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员