Crawling national top-level domains has proven to be highly effective for collecting texts in less-resourced languages. This approach has been recently used for South Slavic languages and resulted in the largest general corpora for this language group: the CLASSLA-web 1.0 corpora. Building on this success, we established a continuous crawling infrastructure for iterative national top-level domain crawling across South Slavic and related webs. We present the first outcome of this crawling infrastructure - the CLASSLA-web 2.0 corpus collection, with substantially larger web corpora containing 17.0 billion words in 38.1 million texts in seven languages: Bosnian, Bulgarian, Croatian, Macedonian, Montenegrin, Serbian, and Slovenian. In addition to genre categories, the new version is also automatically annotated with topic labels. Comparing CLASSLA-web 2.0 with its predecessor reveals that only one-fifth of the texts overlap, showing that re-crawling after just two years yields largely new content. However, while the new web crawls bring growing gains, we also notice growing pains - a manual inspection of top domains reveals a visible degradation of web content, as machine-generated sites now contribute a significant portion of texts.


翻译:对国家顶级域名进行网络爬取已被证明是收集资源稀缺语言文本的高效方法。该方法近期被应用于南斯拉夫语族,并为此语系构建了规模最大的通用语料库:CLASSLA-web 1.0系列语料库。基于此成功实践,我们建立了针对南斯拉夫语族及相关网络的迭代式国家顶级域名持续爬取架构。本文展示了该爬取架构的首个成果——CLASSLA-web 2.0语料集,其网络语料规模显著扩大,涵盖波斯尼亚语、保加利亚语、克罗地亚语、马其顿语、黑山语、塞尔维亚语和斯洛文尼亚语等七种语言,包含3810万篇文本共计170亿词。除体裁分类外,新版语料库还通过自动标注增加了主题标签。通过对比CLASSLA-web 2.0与其前代版本发现,仅有五分之一的文本存在重叠,这表明仅间隔两年的重新爬取即可获得大量新内容。然而,尽管新版网络爬取带来了持续增长的数据收益,我们也注意到随之加剧的阵痛——对顶级域名的人工核查显示网络内容质量出现明显退化,当前机器生成站点已贡献了相当比例的文本。

0
下载
关闭预览

相关内容

定制化大型语言模型的图检索增强生成综述
专知会员服务
37+阅读 · 2025年1月28日
智能数据库学习型索引研究综述
专知会员服务
23+阅读 · 2023年1月14日
专知会员服务
33+阅读 · 2021年9月27日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
109+阅读 · 2019年6月21日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员