Tabular data embeddings have become a cornerstone of data profiling and data integration pipelines, enabling tasks such as entity annotation and resolution; schema matching; column type detection; and table search, among others. Existing approaches embed rows, columns, or entire tables into a vector space and rely on nearest-neighbor search to retrieve candidate matches. A fundamental limitation of current embedding methods is the lack of interpretable similarity scores: the concrete similarity value between a query and its nearest neighbour carries no intrinsic meaning, making it impossible to determine whether that neighbour is a true match or simply the least-dissimilar item in a corpus that contains no valid answer. This inability to set principled thresholds for retrieval undermines practical deployment, particularly for zero-match detection. We investigate the use of HyperDimensional Computing (HDC), specifically the Holographic Reduced Representations (HRR) model, as a framework for tabular row embeddings when the retrieval task corresponds to answering structured select-project queries in vector space. Exploiting the algebraic properties of HDC operations, we derive closed-form expected similarity values for both equality and non-equality retrieval predicates, which converge to interpretable values as dimensionality increases, and use these to identify suitable retrieval thresholds. We evaluate HDC against EmbDI, a graph-based baseline, on two real-world datasets across varying table sizes and predicate lengths. Our results show that HDC matches or outperforms EmbDI for row retrieval across all configurations, handles non-equality predicates more robustly, and achieves perfect attribute projection accuracy at sufficient dimensionality -- while uniquely enabling reliable identification of zero-match predicates through its principled thresholds.


翻译:表格数据嵌入已成为数据剖析和数据集成管道的基石,支持实体标注与解析、模式匹配、列类型检测以及表格搜索等多种任务。现有方法将行、列或整个表格嵌入到向量空间中,并依赖最近邻搜索来检索候选匹配。当前嵌入方法的一个根本局限在于缺乏可解释的相似度评分:查询与其最近邻之间的具体相似值本身没有内在意义,因此无法判断该邻居是真正的匹配,还是语料库中不包含有效答案时最不相似的条目。这种无法设定原则性检索阈值的缺陷阻碍了实际部署,尤其是在零匹配检测场景中。我们研究了超维计算(HDC)的应用,具体采用全息约化表示(HRR)模型,作为表格行嵌入的框架,当检索任务对应于在向量空间中回答结构化选择-投影查询时。利用HDC操作的代数性质,我们推导了等式和非等式检索谓词的闭式期望相似值,这些值随维度增加收敛到可解释的值,并据此确定合适的检索阈值。我们在两个真实数据集上,针对不同表格大小和谓词长度,将HDC与基于图的基线方法EmbDI进行了对比。结果表明,在所有配置下,HDC在行检索方面达到或优于EmbDI,对非等式谓词处理更鲁棒,在足够维度下实现完美的属性投影精度,同时通过其原则性阈值独占地实现了对零匹配谓词的可靠识别。

0
下载
关闭预览

相关内容

表格数据表示学习综述
专知会员服务
18+阅读 · 2025年4月27日
《深度表格学习综述》
专知会员服务
44+阅读 · 2024年10月18日
基于表格数据的深度学习方法
专知会员服务
40+阅读 · 2021年10月19日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
最新《图嵌入组合优化》综述论文,40页pdf
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
知识图谱嵌入的Translate模型汇总(TransE,TransH,TransR,TransD)
深度学习自然语言处理
31+阅读 · 2020年6月12日
图嵌入(Graph embedding)综述
人工智能前沿讲习班
449+阅读 · 2019年4月30日
大讲堂 | 知识图谱的嵌入:更好更快的负采样
AI研习社
13+阅读 · 2019年3月6日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
最新《图嵌入组合优化》综述论文,40页pdf
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
知识图谱嵌入的Translate模型汇总(TransE,TransH,TransR,TransD)
深度学习自然语言处理
31+阅读 · 2020年6月12日
图嵌入(Graph embedding)综述
人工智能前沿讲习班
449+阅读 · 2019年4月30日
大讲堂 | 知识图谱的嵌入:更好更快的负采样
AI研习社
13+阅读 · 2019年3月6日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员