Pivot tables are ubiquitous in data lakes of modern data ecosystems, making accurate schema matching over pivot tables a key prerequisite for data integration. In this paper, we focus on matching for pivot table schema, which is a novel joint schema-value matching task. It aims to align schemas between pivot tables and standard relational tables, where a correct match must be semantically consistent at the schema level and compatible at the value level. However, due to the inherent data sensitivity of this task, the prevalence of anonymized data in practice poses significant challenges to its matching accuracy and generalization capability. To tackle these challenges, we propose PiLLar, the first matching for pivot table schema framework. We first formulate PiLLar as an LLM-driven search paradigm that operates with minimal annotated privacy-compliant data, thereby achieving training-free adaptation across diverse domains. Next, we provide a theoretical analysis on the error dynamics of the paradigm to ensure the asymptotic convergence of the proposed method. Furthermore, we introduce a new benchmark PTbench, derived from four representative real-world domains and constructed by mining unpivot-suitable tables, performing unpivot on semantically coherent attributes, and applying sampling and anonymization. Extensive experiments demonstrate the superiority of PiLLar, which achieves an average accuracy of 87.94% on the correctly predicted matches.


翻译:透视表在现代数据生态系统的数据湖中无处不在,使得透视表结构匹配成为数据整合的关键前提。本文聚焦于透视表结构匹配这一新型联合结构-值匹配任务,旨在对齐透视表与标准关系表间的结构,要求正确匹配在结构层面语义一致且值层面兼容。然而,该任务具有内在数据敏感性,实践中匿名化数据的普遍性对其匹配精度与泛化能力构成重大挑战。为此,我们提出首个透视表结构匹配框架PiLLar。首先将PiLLar建模为基于LLM驱动的搜索范式,以极小标注隐私合规数据运行,实现跨不同领域的无训练自适应。其次,对该范式的误差动态进行理论分析,确保所提方法的渐近收敛性。最后,引入基于四个典型真实领域构建的新基准PTbench,其通过挖掘适合逆透视的表、对语义一致属性执行逆透视操作并进行采样与匿名化生成。大量实验证明PiLLar的优越性,其在正确预测匹配上的平均准确率达87.94%。

0
下载
关闭预览

相关内容

深度学习图像匹配:综述与展望
专知会员服务
18+阅读 · 2025年6月6日
基于深度学习的图像匹配:方法、应用与挑战
专知会员服务
24+阅读 · 2024年7月19日
北大邹磊:图数据库中的子图匹配算法
专知会员服务
21+阅读 · 2022年4月21日
【AAAI2021】基于图神经网络的文本语义匹配算法
专知会员服务
50+阅读 · 2021年1月30日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
网状网络及其在军事领域的运用
专知会员服务
1+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
2+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
2+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
3+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
7+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
5+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
7+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
6+阅读 · 6月24日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员