Vector embeddings have been tasked with an ever-increasing set of retrieval tasks over the years, with a nascent rise in using them for reasoning, instruction-following, coding, and more. These new benchmarks push embeddings to work for any query and any notion of relevance that could be given. While prior works have pointed out theoretical limitations of vector embeddings, there is a common assumption that these difficulties are exclusively due to unrealistic queries, and those that are not can be overcome with better training data and larger models. In this work, we demonstrate that we may encounter these theoretical limitations in realistic settings with extremely simple queries. We connect known results in learning theory, showing that the number of top-k subsets of documents capable of being returned as the result of some query is limited by the dimension of the embedding. We empirically show that this holds true even if we directly optimize on the test set with free parameterized embeddings. Using free embeddings, we then demonstrate that returning all pairs of documents requires a relatively high dimension. We then create a realistic dataset called LIMIT that stress tests embedding models based on these theoretical results, and observe that even state-of-the-art models fail on this dataset despite the simple nature of the task. Our work shows the limits of embedding models under the existing single vector paradigm and calls for future research to develop new techniques that can resolve this fundamental limitation.


翻译:近年来,向量嵌入技术被赋予日益增多的检索任务,并开始被初步应用于推理、指令跟随、代码生成等领域。这些新兴基准测试要求嵌入模型能够处理任意查询及任意给定的相关性定义。尽管先前研究已指出向量嵌入的理论局限性,但普遍假设这些困难仅源于非现实查询,而通过优化训练数据与扩大模型规模即可克服非现实查询之外的局限。本研究证明,即使在采用极其简单查询的现实场景中,我们仍可能遭遇这些理论局限。我们结合学习理论中的已知结论,证明能够作为查询结果返回的文档top-k子集数量受限于嵌入维度。通过实验验证,即使直接在测试集上使用自由参数化嵌入进行优化,该结论依然成立。利用自由嵌入技术,我们进一步证明返回所有文档对需要相对较高的维度。基于这些理论结果,我们创建了名为LIMIT的现实数据集以对嵌入模型进行压力测试,发现即使最先进的模型在这个任务简单的数据集上也会失败。本研究揭示了现有单向量范式下嵌入模型的内在局限,呼吁未来研究开发能够突破这一根本性限制的新技术。

0
下载
关闭预览

相关内容

专知会员服务
53+阅读 · 2021年8月13日
最新《动态网络嵌入》综述论文,25页pdf
专知会员服务
138+阅读 · 2020年6月17日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
最新《动态网络嵌入》综述论文,25页pdf
专知
37+阅读 · 2020年6月17日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
图嵌入(Graph embedding)综述
人工智能前沿讲习班
449+阅读 · 2019年4月30日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月12日
VIP会员
最新内容
内省扩散语言模型
专知会员服务
2+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
3+阅读 · 4月14日
大规模作战行动中的战术作战评估(研究论文)
未来的海战无人自主系统
专知会员服务
3+阅读 · 4月14日
美军多域作战现状分析:战略、概念还是幻想?
无人机与反无人机系统(书籍)
专知会员服务
17+阅读 · 4月14日
美陆军2026条令:安全与机动支援
专知会员服务
7+阅读 · 4月14日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员