In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.


翻译:在这篇资源论文中,我们介绍了DHPLT,这是一个包含41种不同语言的历时语料库的开放集合。DHPLT基于网络爬取的HPLT数据集;我们使用网络爬取时间戳作为文档创建时间的近似信号。该集合涵盖三个时间段:2011-2015年、2020-2021年以及2024年至今(每种语言每个时间段包含100万篇文档)。我们还为选定的目标词提供了预计算的词类型与词例嵌入以及词汇替换,同时允许其他研究人员使用相同的数据集提出自己的目标词。DHPLT旨在填补当前语义变化建模领域缺乏多语言历时语料库的现状(目前仅覆盖十几种高资源语言)。它为这一领域的各种新实验设置开辟了道路。本文描述的所有资源均可在 https://data.hplt-project.org/three/diachronic/ 获取,并按语言分类。

0
下载
关闭预览

相关内容

《使用生成式大语言模型进行多语言事件提取》最新85页
【杜克-Bhuwan Dhingra】语言模型即知识图谱,46页ppt
专知会员服务
67+阅读 · 2021年11月15日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
51+阅读 · 2018年12月27日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《使用生成式大语言模型进行多语言事件提取》最新85页
【杜克-Bhuwan Dhingra】语言模型即知识图谱,46页ppt
专知会员服务
67+阅读 · 2021年11月15日
相关资讯
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
51+阅读 · 2018年12月27日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员