We study Vector Linking: given two embedding clouds produced by different black-box encoders over partially overlapping datasets, recover cross-model object correspondences using only vectors. Empirically and theoretically, we show that independently trained contrastive encoders exhibit local geometric consistency: short-range distances are approximately preserved up to a scale factor, while long-range distances are not due to model-specific distortion. Building on this, we propose an iterative, reference-based geometric embedding hashing that recovers vector links from a tiny seed set of paired anchors. It represents each vector by distances to sampled paired anchors, proposes candidate links via hash-space matching, and aggregates evidence across views in a Beta-Bernoulli posterior to bootstrap high-confidence links as new anchors. Experiments across multiple benchmarks and embedding model pairs demonstrate accurate and robust linking under varying overlap, seed budgets, and out-of-domain anchors, with applications to vector database integration and cross-model clustering. Code is available at https://github.com/DBgroup-Edinburgh/VecLinking.


翻译:我们研究向量链接问题:给定由不同黑盒编码器在部分重叠数据集上生成的两个嵌入点云,仅利用向量恢复跨模型对象对应关系。通过实验和理论分析,我们证明独立训练的对比编码器表现出局部几何一致性:短距离近似保持(仅相差一个尺度因子),而长距离因模型特异性畸变而不一致。基于此,我们提出一种迭代式、基于参考集的几何嵌入哈希方法,通过少量种子配对锚点恢复向量链接。该方法将每个向量表示为与采样配对锚点的距离,通过哈希空间匹配生成候选链接,并利用贝塔-伯努利后验分布跨视图聚合证据,以自举方式生成高置信度链接作为新锚点。在多个基准测试和嵌入模型对上的实验表明,该方法在不同重叠度、种子预算及域外锚点条件下均能实现准确且鲁棒的链接,可应用于向量数据库集成与跨模型聚类。代码开源于 https://github.com/DBgroup-Edinburgh/VecLinking。

0
下载
关闭预览

相关内容

Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
【CIKM2022】基于双向Transformers对比学习的序列推荐
专知会员服务
21+阅读 · 2022年8月10日
专知会员服务
16+阅读 · 2021年10月4日
常用的模型集成方法介绍:bagging、boosting 、stacking
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
【收藏】支持向量机原理详解+案例+代码!【点击阅读原文下载】
机器学习算法与Python学习
10+阅读 · 2018年9月13日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月8日
Arxiv
0+阅读 · 5月6日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
【CIKM2022】基于双向Transformers对比学习的序列推荐
专知会员服务
21+阅读 · 2022年8月10日
专知会员服务
16+阅读 · 2021年10月4日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员