Entity Matching (EM)--the task of determining whether two data records refer to the same real-world entity--is a core task in data integration. Recent advances in deep learning have set a new standard for EM, particularly through fine-tuning Pretrained Language Models (PLMs) and, more recently, Large Language Models (LLMs). However, fine-tuning typically requires large amounts of labeled data, which are expensive and time-consuming to obtain. In the context of e-commerce matching, labeling scarcity varies widely across domains, raising the question of how to intelligently train accurate domain-specific EM models with limited labeled data. In this work we assume users have only a limited amount of labels for a specific target domain but have access to labeled data from other domains. We introduce BEACON, a distribution-aware, budget-aware framework for low-resource EM across domains. BEACON leverages the insight that embedding representations of pairwise candidate matches can guide the effective selection of out-of-domain samples under limited in-domain supervision. We conduct extensive experiments across multiple domain-partitioned datasets derived from established EM benchmarks, demonstrating that BEACON consistently outperforms state-of-the-art methods under different training budgets.


翻译:实体匹配(Entity Matching,EM)——判断两条数据记录是否指向同一现实世界实体的任务——是数据集成中的核心任务。深度学习的最新进展为EM设定了新标准,特别是通过微调预训练语言模型(Pretrained Language Models,PLMs)以及最近的大型语言模型(Large Language Models,LLMs)。然而,微调通常需要大量标注数据,这些数据的获取成本高昂且耗时。在电子商务匹配场景中,不同领域的标注稀缺性差异显著,这引出了一个关键问题:如何在有限标注数据下智能地训练准确的领域特定EM模型。本工作中,我们假设用户仅拥有特定目标领域的有限标注数据,但可获取来自其他领域的标注数据。我们提出了BEACON,一种面向跨领域低资源EM的分布感知、预算感知框架。BEACON基于以下洞见:在有限领域内监督下,成对候选匹配的嵌入表示能够指导跨领域样本的有效选择。我们在基于现有EM基准构建的多个领域划分数据集上进行了广泛实验,结果表明BEACON在不同训练预算下均持续优于现有最先进方法。

0
下载
关闭预览

相关内容

《BEAM:一种用于评估军事行动战略与力量的新仿真工具》
深度学习图像匹配:综述与展望
专知会员服务
18+阅读 · 2025年6月6日
【AAAI2021】基于图神经网络的文本语义匹配算法
专知会员服务
50+阅读 · 2021年1月30日
技术动态 | 知识图谱上的实体链接
开放知识图谱
69+阅读 · 2019年9月8日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
VIP会员
最新内容
(中文)AUKUS第二支柱中的人工智能与自主性方案
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
0+阅读 · 31分钟前
(中文)认知战的本体论基础(2026报告)
专知会员服务
5+阅读 · 今天1:45
美空军条令(2026):外国对内防御
专知会员服务
2+阅读 · 今天1:32
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
6+阅读 · 4月16日
《自动化战略情报管控》
专知会员服务
3+阅读 · 4月16日
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
3+阅读 · 4月16日
【CMU博士论文】迈向可解释机器学习的理论基础
相关资讯
技术动态 | 知识图谱上的实体链接
开放知识图谱
69+阅读 · 2019年9月8日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
相关基金
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员