While raw cosine similarity in pretrained embedding spaces exhibits strong rank correlation with human judgments, anisotropy induces systematic miscalibration of absolute values: scores concentrate in a narrow high-similarity band regardless of actual semantic relatedness, limiting interpretability as a quantitative measure. Prior work addresses this by modifying the embedding space (whitening, contrastive fine tuning), but such transformations alter geometric structure and require recomputing all embeddings. Using isotonic regression trained on human similarity judgments, we construct a monotonic transformation that achieves near-perfect calibration while preserving rank correlation and local stability(98% across seven perturbation types). Our contribution is not to replace cosine similarity, but to restore interpretability of its absolute values through monotone calibration, without altering its ranking properties. We characterize isotonic calibration as an order-preserving reparameterization and prove that all order-based constructions (angular ordering, nearest neighbors, threshold graphs and quantile-based decisions) are invariant under this transformation.


翻译:尽管预训练嵌入空间中的原始余弦相似度与人类判断展现出强烈的秩相关性,但各向异性会导致绝对值的系统性误校准:无论实际语义相关性如何,相似度分数都集中在狭窄的高相似度区间内,这限制了其作为定量度量的可解释性。先前研究通过修改嵌入空间(白化处理、对比微调)来解决此问题,但此类变换会改变几何结构并需要重新计算所有嵌入向量。利用基于人类相似度判断训练的等渗回归,我们构建了一种单调变换,在保持秩相关性和局部稳定性(在七种扰动类型中达到98%)的同时实现了近乎完美的校准。我们的贡献并非取代余弦相似度,而是通过单调校准恢复其绝对值的可解释性,且不改变其排序特性。我们将等渗校准表征为保序重参数化过程,并证明所有基于序关系的构造(角度排序、最近邻检索、阈值图及基于分位数的决策)在此变换下均保持不变。

0
下载
关闭预览

相关内容

几何观点下的深度学习
专知会员服务
35+阅读 · 2022年12月13日
专知会员服务
65+阅读 · 2021年4月11日
[NeurIPS 2020] 球形嵌入的深度度量学习
专知会员服务
17+阅读 · 2020年11月8日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员