We present PashtoCorp, a 1.25-billion-word corpus for Pashto, a language spoken by 60 million people that remains severely underrepresented in NLP. The corpus is assembled from 39 sources spanning seven HuggingFace datasets and 32 purpose-built web scrapers, processed through a reproducible pipeline with Arabic-script tokenization, SHA-256 deduplication, and quality filtering. At 1.25B words across 2.81 million documents, PashtoCorp is 40x larger than the OSCAR Pashto subset and 83x larger than the previously largest dedicated Pashto corpus. Continued MLM pretraining of XLM-R-base on PashtoCorp reduces held-out perplexity by 25.1% (8.08->6.06). On WikiANN Pashto NER, the pretrained model improves entity F1 by 10% relative (19.0%->21.0%) and reduces training variance nearly 7x; the largest gain appears at 50 training sentences (+27%), with PashtoCorp covering 97.9% of WikiANN entity vocabulary. On Belebele Pashto reading comprehension, Gemma-3n achieves 64.6% accuracy, the first published LLM baseline for Pashto on this benchmark. A leave-one-out source ablation shows that Wikipedia (0.7% of documents) is the most critical source for NER: removing it alone reduces entity F1 by 47%. Corpus data, trained model, and code are available at https://huggingface.co/datasets/ihanif/pashto-corpus, https://huggingface.co/ihanif/xlmr-pashto, and https://github.com/ihanif/pashto-corpus.


翻译:本文提出PashtoCorp——一个包含12.5亿词汇的普什图语语料库。普什图语作为拥有6000万使用者的语言,在自然语言处理领域长期处于严重代表性不足的状态。本语料库整合了39个数据源,涵盖7个HuggingFace数据集和32个专门构建的网络爬虫数据,并通过可复现的处理流程进行加工,包括阿拉伯文字符分词、SHA-256去重和质量过滤。该语料库包含281万篇文档共计12.5亿词汇,规模达到OSCAR普什图语子集的40倍,是此前最大专用普什图语料库的83倍。基于PashtoCorp对XLM-R-base模型进行持续掩码语言建模预训练,使留出困惑度降低25.1%(8.08→6.06)。在WikiANN普什图语命名实体识别任务中,预训练模型将实体F1分数相对提升10%(19.0%→21.0%),训练方差降低近7倍;最大增益出现在50个训练语句场景(+27%),且PashtoCorp覆盖了WikiANN 97.9%的实体词汇。在Belebele普什图语阅读理解任务中,Gemma-3n模型达到64.6%准确率,这是该基准测试中首个公开发表的普什图语大语言模型基线。通过留一法源数据消融实验发现,维基百科(占文档数0.7%)对命名实体识别最为关键:仅移除该数据源就会导致实体F1分数下降47%。语料库数据、训练模型及代码已发布于https://huggingface.co/datasets/ihanif/pashto-corpus、https://huggingface.co/ihanif/xlmr-pashto 与 https://github.com/ihanif/pashto-corpus。

0
下载
关闭预览

相关内容

【CVPR2022】语言作为查询的参考视频目标分割框架
专知会员服务
10+阅读 · 2022年4月27日
【干货书】Pytorch自然语言处理,210页pdf
专知会员服务
166+阅读 · 2020年10月30日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
109+阅读 · 2019年6月21日
千万级中文公开免费聊天语料数据分享
深度学习与NLP
17+阅读 · 2019年3月17日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
51+阅读 · 2018年12月27日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
《对信息环境分析实现人工智能预测冲突》96页
专知会员服务
3+阅读 · 今天9:59
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
4+阅读 · 今天9:41
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 今天9:02
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
5+阅读 · 今天8:51
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
8+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
相关VIP内容
【CVPR2022】语言作为查询的参考视频目标分割框架
专知会员服务
10+阅读 · 2022年4月27日
【干货书】Pytorch自然语言处理,210页pdf
专知会员服务
166+阅读 · 2020年10月30日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
109+阅读 · 2019年6月21日
相关资讯
千万级中文公开免费聊天语料数据分享
深度学习与NLP
17+阅读 · 2019年3月17日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
51+阅读 · 2018年12月27日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员