ICE-ID: A Novel Historical Census Dataset for Longitudinal Identity Resolution

Gonçalo Hora de Carvalho,Lazar S. Popov,Sander Kaatee,Mário S. Correia,Kristinn R. Thórisson,Tangrui Li,Pétur Húni Björnsson,Eiríkur Smári Sigurðarson,Jilles S. Dibangoye

We introduce \textbf{ICE-ID}, a benchmark dataset comprising 984,028 records from 16 Icelandic census waves spanning 220 years (1703--1920), with 226,864 expert-curated person identifiers. ICE-ID combines hierarchical geography (farm$\to$parish$\to$district$\to$county), patronymic naming conventions, sparse kinship links (partner, father, mother), and multi-decadal temporal drift -- challenges not captured by standard product-matching or citation datasets. This paper presents an artifact-backed analysis of temporal coverage, missingness, identifier ambiguity, candidate-generation efficiency, and cluster distributions, and situates ICE-ID against classical ER benchmarks (Abt--Buy, Amazon--Google, DBLP--ACM, DBLP--Scholar, Walmart--Amazon, iTunes--Amazon, Beer, Fodors--Zagats). We also define a deployment-faithful temporal OOD protocol and release the dataset, splits, regeneration scripts, analysis artifacts, and a dashboard for interactive exploration. Baseline model comparisons and end-to-end ER results are reported in the companion methods paper.

翻译：本文介绍\textbf{ICE-ID}基准数据集，该数据集包含跨越220年（1703–1920年）的16次冰岛人口普查浪潮中的984,028条记录，并附有226,864个专家标注的个人标识符。ICE-ID融合了层级地理结构（农场→教区→区→县）、父名命名惯例、稀疏亲属关系链接（伴侣、父亲、母亲）以及跨数十年的时间漂移——这些挑战均未被标准产品匹配或引文数据集所涵盖。本文基于实际数据对时间覆盖度、缺失值、标识符歧义、候选生成效率及聚类分布进行了分析，并将ICE-ID与经典实体解析基准（Abt–Buy、Amazon–Google、DBLP–ACM、DBLP–Scholar、Walmart–Amazon、iTunes–Amazon、Beer、Fodors–Zagats）进行了对比。我们还定义了一个符合实际部署需求的时序分布外泛化评估协议，并公开了数据集、数据划分、再生脚本、分析工具及用于交互式探索的仪表板。基线模型对比与端到端实体解析结果已在配套方法论文中报告。

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

高质量数据集实践指南（1.0）

专知会员服务

32+阅读 · 2025年7月25日

《基于机器学习的冰上人为声源检测、分类、定位与跟踪》146页

专知会员服务

26+阅读 · 2024年5月28日

《实时声学监测、导航和通信的冰系声学浮标》15页

专知会员服务

21+阅读 · 2024年5月5日

《欧洲情报学院（ICE）：创建欧洲情报界》

专知会员服务

24+阅读 · 2024年1月9日