Multi-table entity matching (MEM) addresses the limitations of dual-table approaches by enabling simultaneous identification of equivalent entities across multiple data sources without unique identifiers. However, existing methods relying on pre-trained language models struggle to handle semantic inconsistencies caused by numerical attribute variations. Inspired by the powerful language understanding capabilities of large language models (LLMs), we propose a novel LLM-based framework for multi-table entity matching, termed LLM4MEM. Specifically, we first propose a multi-style prompt-enhanced LLM attribute coordination module to address semantic inconsistencies. Then, to alleviate the matching efficiency problem caused by the surge in the number of entities brought by multiple data sources, we develop a transitive consensus embedding matching module to tackle entity embedding and pre-matching issues. Finally, to address the issue of noisy entities during the matching process, we introduce a density-aware pruning module to optimize the quality of multi-table entity matching. We conducted extensive experiments on 6 MEM datasets, and the results show that our model improves by an average of 5.1% in F1 compared with the baseline model. Our code is available at https://github.com/Ymeki/LLM4MEM.


翻译:多元表实体匹配(MEM)通过无需唯一标识符即可跨多个数据源同时识别等价实体,克服了双表方法的局限性。然而,依赖预训练语言模型的现有方法难以处理由数值属性变化引起的语义不一致性。受大语言模型(LLM)强大语言理解能力的启发,我们提出了一种基于LLM的新型多元表实体匹配框架,称为LLM4MEM。具体而言,我们首先提出一种多风格提示增强的LLM属性协调模块以解决语义不一致问题。接着,为缓解多数据源带来的实体数量激增导致的匹配效率问题,我们开发了一种传递性共识嵌入匹配模块,以处理实体嵌入和预匹配问题。最后,针对匹配过程中的噪声实体问题,我们引入密度感知剪枝模块以优化多元表实体匹配质量。我们在6个MEM数据集上进行了广泛实验,结果表明,与基准模型相比,我们的模型F1值平均提升5.1%。我们的代码见https://github.com/Ymeki/LLM4MEM。

0
下载
关闭预览

相关内容

赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
不可错过!《大语言模型》课程
专知会员服务
31+阅读 · 2025年4月15日
多智能体协作机制:大语言模型综述
专知会员服务
70+阅读 · 2025年3月4日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
大语言模型增强知识表示学习综述
专知会员服务
70+阅读 · 2024年7月2日
《大型语言模型》最新全面概述
专知会员服务
111+阅读 · 2023年7月14日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
25+阅读 · 2023年6月23日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
不可错过!《大语言模型》课程
专知会员服务
31+阅读 · 2025年4月15日
多智能体协作机制:大语言模型综述
专知会员服务
70+阅读 · 2025年3月4日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
大语言模型增强知识表示学习综述
专知会员服务
70+阅读 · 2024年7月2日
《大型语言模型》最新全面概述
专知会员服务
111+阅读 · 2023年7月14日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员