A measure of similarity between text embeddings can be considered adequate only if it adheres to the human perception of similarity between texts. In this paper, we introduce the distance-to-distance ratio (DDR), a novel measure of similarity between LLM sentence embeddings. Inspired by Lipschitz continuity, DDR measures the rate of change in similarity between the pre-context word embeddings and the similarity between post-context LLM embeddings, thus measuring the semantic influence of context. We evaluate the performance of DDR in experiments designed as a series of perturbations applied to sentences drawn from a sentence dataset. For each sentence, we generate variants by replacing one, two, or three words with either synonyms, which constitute semantically similar text, or randomly chosen words, which constitute semantically dissimilar text. We compare the performance of DDR with other prevailing similarity metrics and demonstrate that DDR consistently provides finer discrimination between semantically similar and dissimilar texts, even under minimal, controlled edits.


翻译:文本嵌入之间的相似性度量只有在符合人类对文本相似性感知的情况下才能被认为是充分的。本文提出距离-距离比率(DDR),这是一种新颖的大语言模型句子嵌入相似性度量方法。受利普希茨连续性启发,DDR通过比较前语境词嵌入的相似性与后语境大语言模型嵌入的相似性之间的变化率,从而量化语境的语义影响。我们通过一系列针对句子数据集设计的扰动实验评估DDR的性能:对每个原句,通过替换一至三个词汇生成变体——使用同义词构成语义相似文本,或使用随机词汇构成语义不相似文本。通过将DDR与主流相似性度量方法进行对比,我们证明即使在最小化受控编辑条件下,DDR仍能持续提供语义相似与不相似文本之间更精细的区分能力。

0
下载
关闭预览

相关内容

几种句子表示方法的比较
AINLP
15+阅读 · 2019年9月21日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月2日
VIP会员
相关VIP内容
相关资讯
几种句子表示方法的比较
AINLP
15+阅读 · 2019年9月21日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员