Heterogeneity in Entity Matching: A Survey and Experimental Analysis - 专知论文

会员服务 ·

0

异构 · 实体 · 实体匹配 · 分析 · 综述 ·

Heterogeneity in Entity Matching: A Survey and Experimental Analysis

翻译：异构性在实体匹配中的研究：综述与实验分析

Mohammad Hossein Moslemi,Amir Mousavi,Behshid Behkamal,Mostafa Milani

from arxiv, Accepted at Data & Knowledge Engineering (DKE)

Entity matching (EM) is a fundamental task in data integration and analytics, essential for identifying records that refer to the same real-world entity across diverse sources. In practice, datasets often differ widely in structure, format, schema, and semantics, creating substantial challenges for EM. We refer to this setting as Heterogeneous EM (HEM). This survey offers a unified perspective on HEM by introducing a taxonomy, grounded in prior work, that distinguishes two primary categories -- representation and semantic heterogeneity -- and their subtypes. The taxonomy provides a systematic lens for understanding how variations in data form and meaning shape the complexity of matching tasks. We then connect this framework to the FAIR principles -- Findability, Accessibility, Interoperability, and Reusability -- demonstrating how they both reveal the challenges of HEM and suggest strategies for mitigating them. Building on this foundation, we critically review recent EM methods, examining their ability to address different heterogeneity types, and conduct targeted experiments on state-of-the-art models to evaluate their robustness and adaptability under semantic heterogeneity. Our analysis uncovers persistent limitations in current approaches and points to promising directions for future research, including multimodal matching, human-in-the-loop workflows, deeper integration with large language models and knowledge graphs, and fairness-aware evaluation in heterogeneous settings.

翻译：实体匹配（EM）是数据集成与分析中的一项基础任务，其核心在于识别不同来源中指向同一现实世界实体的记录。在实际应用中，数据集通常在结构、格式、模式和语义上存在显著差异，这为实体匹配带来了巨大挑战。我们将这种场景称为异构实体匹配（HEM）。本综述通过引入一个基于先前工作的分类法，为HEM提供了一个统一的视角，该分类法区分了两个主要类别——表示异构性与语义异构性——及其子类型。该分类法为理解数据形式和意义的差异如何影响匹配任务的复杂性提供了系统性的视角。随后，我们将此框架与FAIR原则——可发现性、可访问性、互操作性和可重用性——联系起来，阐明这些原则如何既揭示了HEM的挑战，又提出了缓解这些挑战的策略。在此基础上，我们批判性地回顾了近期实体匹配方法，考察了它们处理不同类型异构性的能力，并对前沿模型进行了针对性实验，以评估其在语义异构性下的鲁棒性和适应性。我们的分析揭示了当前方法存在的持续局限性，并指出了未来研究的潜在方向，包括多模态匹配、人在回路的流程、与大型语言模型和知识图谱的更深度整合，以及在异构环境下进行公平性感知的评估。

0

相关内容

模态感知的特征匹配：单一模态与跨模态技术的全面综述

模态感知的特征匹配：单一模态与跨模态技术的全面综述

专知会员服务

22+阅读 · 2025年8月3日

「基于深度学习的实体关系联合抽取」研究综述

「基于深度学习的实体关系联合抽取」研究综述

专知会员服务

43+阅读 · 2023年7月5日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知会员服务

43+阅读 · 2022年12月1日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

基于异质信息网络的推荐系统研究综述

专知会员服务

57+阅读 · 2021年8月12日

实体关系抽取方法研究综述

实体关系抽取方法研究综述

专知会员服务

178+阅读 · 2020年7月19日

异质信息网络分析与应用综述，软件学报-北京邮电大学

异质信息网络分析与应用综述，软件学报-北京邮电大学

专知会员服务

64+阅读 · 2020年7月9日

【SIGMOD2020】一个全面的主动学习方法的实体匹配基准框架，A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching

【SIGMOD2020】一个全面的主动学习方法的实体匹配基准框架，A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching

专知会员服务

24+阅读 · 2020年3月31日

【KDD2019|讲座推荐】从海量文本中构建和挖掘异构信息网络：Constructing and Mining Heterogeneous Information Networks from Massive Text

【KDD2019|讲座推荐】从海量文本中构建和挖掘异构信息网络：Constructing and Mining Heterogeneous Information Networks from Massive Text

专知会员服务

47+阅读 · 2019年12月11日

【CIKM2019 Tutorial】Recent Developments of Deep Heterogeneous Information Network Analysis（深度异构信息网络分析的最新进展），附157页PDF免费下载

【CIKM2019 Tutorial】Recent Developments of Deep Heterogeneous Information Network Analysis（深度异构信息网络分析的最新进展），附157页PDF免费下载

专知会员服务

29+阅读 · 2019年11月3日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

综述 | 异质信息网络分析与应用综述

综述 | 异质信息网络分析与应用综述

专知

27+阅读 · 2020年8月8日

实体关系抽取方法研究综述

实体关系抽取方法研究综述

专知

14+阅读 · 2020年7月19日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

技术动态 | 知识图谱上的实体链接

技术动态 | 知识图谱上的实体链接

开放知识图谱

69+阅读 · 2019年9月8日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

赛尔原创 | IJCAI 2018基于图结构的实体和关系联合抽取模型简介

赛尔原创 | IJCAI 2018基于图结构的实体和关系联合抽取模型简介

哈工大SCIR

22+阅读 · 2018年6月12日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于进化算法的大规模本体匹配问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的地理共享数据个性化检索研究

国家自然科学基金

0+阅读 · 2015年12月31日

异质总体中的随机比较和剩余寿命研究

国家自然科学基金

0+阅读 · 2014年12月31日

社会化商务中基于异质数据的客户共同创造价值测度方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

BEACON: Budget-Aware Entity Matching Across Domains (Extended Technical Report)

Arxiv

0+阅读 · 3月12日

Investigations of Heterogeneity in Diagnostic Test Accuracy Meta-Analysis: A Methodological Review

Arxiv

0+阅读 · 3月11日

Agent-OM: Leveraging LLM Agents for Ontology Matching

Arxiv

0+阅读 · 3月8日

Integrating Heterogeneous Information in Randomized Experiments: A Unified Calibration Framework

Arxiv

0+阅读 · 3月7日

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration

Arxiv

0+阅读 · 2月21日

Heterogeneous Federated Fine-Tuning with Parallel One-Rank Adaptation

Arxiv

0+阅读 · 2月18日

Agent-OM: Leveraging LLM Agents for Ontology Matching

Arxiv

0+阅读 · 2月14日

Near-Feasible Stable Matchings: Incentives and Optimality

Arxiv

0+阅读 · 2月11日

Robustness of Stable Matchings When Attributes and Salience Determine Preferences

Arxiv

0+阅读 · 2月4日

Evaluation on Entity Matching in Recommender Systems

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

9+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

8+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

5+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

5+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

5+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

模态感知的特征匹配：单一模态与跨模态技术的全面综述

模态感知的特征匹配：单一模态与跨模态技术的全面综述

专知会员服务

22+阅读 · 2025年8月3日

「基于深度学习的实体关系联合抽取」研究综述

「基于深度学习的实体关系联合抽取」研究综述

专知会员服务

43+阅读 · 2023年7月5日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知会员服务

43+阅读 · 2022年12月1日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

基于异质信息网络的推荐系统研究综述

专知会员服务

57+阅读 · 2021年8月12日

实体关系抽取方法研究综述

实体关系抽取方法研究综述

专知会员服务

178+阅读 · 2020年7月19日

异质信息网络分析与应用综述，软件学报-北京邮电大学

异质信息网络分析与应用综述，软件学报-北京邮电大学

专知会员服务

64+阅读 · 2020年7月9日

【SIGMOD2020】一个全面的主动学习方法的实体匹配基准框架，A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching

【SIGMOD2020】一个全面的主动学习方法的实体匹配基准框架，A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching

专知会员服务

24+阅读 · 2020年3月31日

【KDD2019|讲座推荐】从海量文本中构建和挖掘异构信息网络：Constructing and Mining Heterogeneous Information Networks from Massive Text

【KDD2019|讲座推荐】从海量文本中构建和挖掘异构信息网络：Constructing and Mining Heterogeneous Information Networks from Massive Text

专知会员服务

47+阅读 · 2019年12月11日

【CIKM2019 Tutorial】Recent Developments of Deep Heterogeneous Information Network Analysis（深度异构信息网络分析的最新进展），附157页PDF免费下载

【CIKM2019 Tutorial】Recent Developments of Deep Heterogeneous Information Network Analysis（深度异构信息网络分析的最新进展），附157页PDF免费下载

专知会员服务

29+阅读 · 2019年11月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

综述 | 异质信息网络分析与应用综述

综述 | 异质信息网络分析与应用综述

专知

27+阅读 · 2020年8月8日

实体关系抽取方法研究综述

实体关系抽取方法研究综述

专知

14+阅读 · 2020年7月19日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

技术动态 | 知识图谱上的实体链接

技术动态 | 知识图谱上的实体链接

开放知识图谱

69+阅读 · 2019年9月8日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

赛尔原创 | IJCAI 2018基于图结构的实体和关系联合抽取模型简介

赛尔原创 | IJCAI 2018基于图结构的实体和关系联合抽取模型简介

哈工大SCIR

22+阅读 · 2018年6月12日

相关论文

BEACON: Budget-Aware Entity Matching Across Domains (Extended Technical Report)

Arxiv

0+阅读 · 3月12日

Investigations of Heterogeneity in Diagnostic Test Accuracy Meta-Analysis: A Methodological Review

Arxiv

0+阅读 · 3月11日

Agent-OM: Leveraging LLM Agents for Ontology Matching

Arxiv

0+阅读 · 3月8日

Integrating Heterogeneous Information in Randomized Experiments: A Unified Calibration Framework

Arxiv

0+阅读 · 3月7日

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration

Arxiv

0+阅读 · 2月21日

Heterogeneous Federated Fine-Tuning with Parallel One-Rank Adaptation

Arxiv

0+阅读 · 2月18日

Agent-OM: Leveraging LLM Agents for Ontology Matching

Arxiv

0+阅读 · 2月14日

Near-Feasible Stable Matchings: Incentives and Optimality

Arxiv

0+阅读 · 2月11日

Robustness of Stable Matchings When Attributes and Salience Determine Preferences

Arxiv

0+阅读 · 2月4日

Evaluation on Entity Matching in Recommender Systems

Arxiv

0+阅读 · 2月1日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于进化算法的大规模本体匹配问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的地理共享数据个性化检索研究

国家自然科学基金

0+阅读 · 2015年12月31日

异质总体中的随机比较和剩余寿命研究

国家自然科学基金

0+阅读 · 2014年12月31日

社会化商务中基于异质数据的客户共同创造价值测度方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员