This paper introduces a dataset of enriched geographic coordinates retrieved from Diderot and d'Alembert's eighteenth-century Encyclopedie. Automatically recovering geographic coordinates from historical texts is a complex task, as they are expressed in a variety of ways and with varying levels of precision. To improve retrieval of coordinates from similar digitized early modern texts, we have created a gold standard dataset, trained models, published the resulting inferred and normalized coordinate data, and experimented applying these models to new texts. From 74,000 total articles in each of the digitized versions of the Encyclopedie from ARTFL and ENCCRE, we examined 15,278 geographical entries, manually identifying 4,798 containing coordinates, and 10,480 with descriptive but non-numerical references. Leveraging our gold standard annotations, we trained transformer-based models to retrieve and normalize coordinates. The pipeline presented here combines a classifier to identify coordinate-bearing entries and a second model for retrieval, tested across encoder-decoder and decoder architectures. Cross-validation yielded an 86% EM score. On an out-of-domain eighteenth-century Trevoux dictionary (also in French), our fine-tuned model had a 61% EM score, while for the nineteenth-century, 7th edition of the Encyclopaedia Britannica in English, the EM was 77%. These findings highlight the gold standard dataset's usefulness as training data, and our two-step method's cross-lingual, cross-domain generalizability.


翻译:本文介绍了一个从狄德罗与达朗贝尔的十八世纪《百科全书》中提取的增强型地理坐标数据集。从历史文本中自动恢复地理坐标是一项复杂的任务,因为这些坐标的表达方式多样且精度各异。为提升从类似数字化早期现代文本中检索坐标的能力,我们创建了一个黄金标准数据集,训练了相关模型,发布了由此推断和归一化的坐标数据,并尝试将这些模型应用于新文本。在ARTFL和ENCCRE两个数字化版本的《百科全书》共计74,000篇文章中,我们审查了15,278个地理条目,人工识别出其中4,798个包含坐标的条目,以及10,480个具有描述性但无非数值参照的条目。利用我们的黄金标准标注,我们训练了基于Transformer的模型来检索和归一化坐标。本文提出的流程结合了一个用于识别含坐标条目的分类器和一个用于检索的第二个模型,并在编码器-解码器和解码器架构上进行了测试。交叉验证获得了86%的精确匹配分数。在一个域外的十八世纪特雷乌词典(同为法语)上,我们微调后的模型获得了61%的精确匹配分数;而对于十九世纪的英文第七版《不列颠百科全书》,精确匹配分数为77%。这些发现凸显了该黄金标准数据集作为训练数据的实用性,以及我们两步法在跨语言、跨领域方面的泛化能力。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
27页综述,354篇参考文献!最详尽的视觉定位综述来了
专知会员服务
21+阅读 · 2025年2月20日
大数据时代的地学知识图谱研究展望
专知会员服务
34+阅读 · 2021年11月25日
我是如何寻找数据集的,一些个人私藏
极市平台
10+阅读 · 2021年12月17日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
500万照片+20万地标,谷歌更新最大地标数据集
Elasticsearch地理信息存储及查询之Geo_Point
Analysys易观
13+阅读 · 2018年12月29日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
不要担心没数据!史上最全数据集网站汇总
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月24日
VIP会员
最新内容
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
0+阅读 · 6分钟前
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 34分钟前
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
相关VIP内容
27页综述,354篇参考文献!最详尽的视觉定位综述来了
专知会员服务
21+阅读 · 2025年2月20日
大数据时代的地学知识图谱研究展望
专知会员服务
34+阅读 · 2021年11月25日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员