We introduce \textbf{ICE-ID}, a benchmark dataset comprising 984,028 records from 16 Icelandic census waves spanning 220 years (1703--1920), with 226,864 expert-curated person identifiers. ICE-ID combines hierarchical geography (farm$\to$parish$\to$district$\to$county), patronymic naming conventions, sparse kinship links (partner, father, mother), and multi-decadal temporal drift -- challenges not captured by standard product-matching or citation datasets. This paper presents an artifact-backed analysis of temporal coverage, missingness, identifier ambiguity, candidate-generation efficiency, and cluster distributions, and situates ICE-ID against classical ER benchmarks (Abt--Buy, Amazon--Google, DBLP--ACM, DBLP--Scholar, Walmart--Amazon, iTunes--Amazon, Beer, Fodors--Zagats). We also define a deployment-faithful temporal OOD protocol and release the dataset, splits, regeneration scripts, analysis artifacts, and a dashboard for interactive exploration. Baseline model comparisons and end-to-end ER results are reported in the companion methods paper.


翻译:本文介绍\textbf{ICE-ID}基准数据集,该数据集包含跨越220年(1703–1920年)的16次冰岛人口普查浪潮中的984,028条记录,并附有226,864个专家标注的个人标识符。ICE-ID融合了层级地理结构(农场→教区→区→县)、父名命名惯例、稀疏亲属关系链接(伴侣、父亲、母亲)以及跨数十年的时间漂移——这些挑战均未被标准产品匹配或引文数据集所涵盖。本文基于实际数据对时间覆盖度、缺失值、标识符歧义、候选生成效率及聚类分布进行了分析,并将ICE-ID与经典实体解析基准(Abt–Buy、Amazon–Google、DBLP–ACM、DBLP–Scholar、Walmart–Amazon、iTunes–Amazon、Beer、Fodors–Zagats)进行了对比。我们还定义了一个符合实际部署需求的时序分布外泛化评估协议,并公开了数据集、数据划分、再生脚本、分析工具及用于交互式探索的仪表板。基线模型对比与端到端实体解析结果已在配套方法论文中报告。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
高质量数据集实践指南(1.0)
专知会员服务
31+阅读 · 2025年7月25日
《实时声学监测、导航和通信的冰系声学浮标》15页
专知会员服务
20+阅读 · 2024年5月5日
《欧洲情报学院(ICE): 创建欧洲情报界》
专知会员服务
23+阅读 · 2024年1月9日
多标签学习的新趋势(2020 Survey)
专知会员服务
44+阅读 · 2020年12月6日
2700篇+机器学习推理文献大全(1996-2019),附下载
专知会员服务
30+阅读 · 2020年9月6日
我是如何寻找数据集的,一些个人私藏
极市平台
10+阅读 · 2021年12月17日
命名实体识别从数据集到算法实现
专知
56+阅读 · 2018年6月28日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月16日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 4月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员