On the Theoretical Limitations of Embedding-Based Retrieval - 专知论文

会员服务 ·

0

嵌入 · 嵌入式 · 向量嵌入 · 数据集 · 代码 ·

On the Theoretical Limitations of Embedding-Based Retrieval

翻译：嵌入式检索的理论局限性研究

Orion Weller,Michael Boratko,Iftekhar Naim,Jinhyuk Lee

from arxiv, Accepted to ICLR'26

Vector embeddings have been tasked with an ever-increasing set of retrieval tasks over the years, with a nascent rise in using them for reasoning, instruction-following, coding, and more. These new benchmarks push embeddings to work for any query and any notion of relevance that could be given. While prior works have pointed out theoretical limitations of vector embeddings, there is a common assumption that these difficulties are exclusively due to unrealistic queries, and those that are not can be overcome with better training data and larger models. In this work, we demonstrate that we may encounter these theoretical limitations in realistic settings with extremely simple queries. We connect known results in learning theory, showing that the number of top-k subsets of documents capable of being returned as the result of some query is limited by the dimension of the embedding. We empirically show that this holds true even if we directly optimize on the test set with free parameterized embeddings. Using free embeddings, we then demonstrate that returning all pairs of documents requires a relatively high dimension. We then create a realistic dataset called LIMIT that stress tests embedding models based on these theoretical results, and observe that even state-of-the-art models fail on this dataset despite the simple nature of the task. Our work shows the limits of embedding models under the existing single vector paradigm and calls for future research to develop new techniques that can resolve this fundamental limitation.

翻译：近年来，向量嵌入技术被赋予日益增多的检索任务，并开始被初步应用于推理、指令跟随、代码生成等领域。这些新兴基准测试要求嵌入模型能够处理任意查询及任意给定的相关性定义。尽管先前研究已指出向量嵌入的理论局限性，但普遍假设这些困难仅源于非现实查询，而通过优化训练数据与扩大模型规模即可克服非现实查询之外的局限。本研究证明，即使在采用极其简单查询的现实场景中，我们仍可能遭遇这些理论局限。我们结合学习理论中的已知结论，证明能够作为查询结果返回的文档top-k子集数量受限于嵌入维度。通过实验验证，即使直接在测试集上使用自由参数化嵌入进行优化，该结论依然成立。利用自由嵌入技术，我们进一步证明返回所有文档对需要相对较高的维度。基于这些理论结果，我们创建了名为LIMIT的现实数据集以对嵌入模型进行压力测试，发现即使最先进的模型在这个任务简单的数据集上也会失败。本研究揭示了现有单向量范式下嵌入模型的内在局限，呼吁未来研究开发能够突破这一根本性限制的新技术。

0

相关内容

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

专知会员服务

60+阅读 · 2023年4月14日

如何从数学角度理解知识图谱嵌入？中山大学等最新《知识图谱嵌入:表征空间视角》研究综述，32页pdf阐述代数、几何、分析下的KGE

如何从数学角度理解知识图谱嵌入？中山大学等最新《知识图谱嵌入:表征空间视角》研究综述，32页pdf阐述代数、几何、分析下的KGE

专知会员服务

48+阅读 · 2022年11月8日

如何理解词嵌入几何结构？【Edinburgh博士论文】对词和关系表示的理论理解，97页pdf

如何理解词嵌入几何结构？【Edinburgh博士论文】对词和关系表示的理论理解，97页pdf

专知会员服务

41+阅读 · 2022年2月6日

跨模态检索研究进展综述

专知会员服务

53+阅读 · 2021年8月13日

最新《动态网络嵌入》综述论文，25页pdf

最新《动态网络嵌入》综述论文，25页pdf

专知会员服务

138+阅读 · 2020年6月17日

【综述论文】A Survey on Dynamic Network Embedding，动态网络嵌入综述论文

【综述论文】A Survey on Dynamic Network Embedding，动态网络嵌入综述论文

专知会员服务

102+阅读 · 2020年6月16日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知会员服务

190+阅读 · 2020年4月4日

临床自然语言处理中的嵌入综述，SECNLP: A survey of embeddings

临床自然语言处理中的嵌入综述，SECNLP: A survey of embeddings

专知会员服务

39+阅读 · 2020年3月23日

【新墨西哥大学】深度学习的局限性和缺陷，10页pdf，Deep Learning Limitations and Flaws

【新墨西哥大学】深度学习的局限性和缺陷，10页pdf，Deep Learning Limitations and Flaws

专知会员服务

54+阅读 · 2020年2月5日

【图机器学习论文】网络嵌入研究综述（A Survey on Network Embedding）

【图机器学习论文】网络嵌入研究综述（A Survey on Network Embedding）

专知会员服务

82+阅读 · 2019年12月16日

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

专知

32+阅读 · 2022年4月28日

图节点嵌入(Node Embeddings)概述，9页pdf

图节点嵌入(Node Embeddings)概述，9页pdf

专知

15+阅读 · 2020年8月22日

最新《动态网络嵌入》综述论文，25页pdf

最新《动态网络嵌入》综述论文，25页pdf

专知

37+阅读 · 2020年6月17日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知

23+阅读 · 2020年4月4日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

图嵌入（Graph embedding）综述

图嵌入（Graph embedding）综述

人工智能前沿讲习班

449+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

深度学习 | 利用词嵌入对文本进行情感分析

深度学习 | 利用词嵌入对文本进行情感分析

沈浩老师

11+阅读 · 2017年10月19日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

嵌入式存储器容错设计关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

Banach空间的嵌入理论及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

基于结构图论的一般图嵌入分布的研究

国家自然科学基金

4+阅读 · 2014年12月31日

分形几何中的嵌入问题

国家自然科学基金

0+阅读 · 2014年12月31日

On the Limits of Layer Pruning for Generative Reasoning in Large Language Models

Arxiv

0+阅读 · 4月10日

Generative Retrieval Overcomes Limitations of Dense Retrieval but Struggles with Identifier Ambiguity

Arxiv

0+阅读 · 4月8日

Generative Retrieval Overcomes Limitations of Dense Retrieval but Struggles with Identifier Ambiguity

Arxiv

0+阅读 · 4月7日

On Strengths and Limitations of Single-Vector Embeddings

Arxiv

0+阅读 · 3月31日

The Limits of Inference Scaling Through Resampling

Arxiv

0+阅读 · 3月26日

On the Challenges and Opportunities of Learned Sparse Retrieval for Code

Arxiv

0+阅读 · 3月23日

Semantic Shift: the Fundamental Challenge in Text Embedding and Retrieval

Arxiv

0+阅读 · 3月22日

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Arxiv

0+阅读 · 3月9日

The Limits of Long-Context Reasoning in Automated Bug Fixing

Arxiv

0+阅读 · 3月6日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

7+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

10+阅读 · 5月29日

相关VIP内容

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

专知会员服务

60+阅读 · 2023年4月14日

如何从数学角度理解知识图谱嵌入？中山大学等最新《知识图谱嵌入:表征空间视角》研究综述，32页pdf阐述代数、几何、分析下的KGE

如何从数学角度理解知识图谱嵌入？中山大学等最新《知识图谱嵌入:表征空间视角》研究综述，32页pdf阐述代数、几何、分析下的KGE

专知会员服务

48+阅读 · 2022年11月8日

如何理解词嵌入几何结构？【Edinburgh博士论文】对词和关系表示的理论理解，97页pdf

如何理解词嵌入几何结构？【Edinburgh博士论文】对词和关系表示的理论理解，97页pdf

专知会员服务

41+阅读 · 2022年2月6日

跨模态检索研究进展综述

专知会员服务

53+阅读 · 2021年8月13日

最新《动态网络嵌入》综述论文，25页pdf

最新《动态网络嵌入》综述论文，25页pdf

专知会员服务

138+阅读 · 2020年6月17日

【综述论文】A Survey on Dynamic Network Embedding，动态网络嵌入综述论文

【综述论文】A Survey on Dynamic Network Embedding，动态网络嵌入综述论文

专知会员服务

102+阅读 · 2020年6月16日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知会员服务

190+阅读 · 2020年4月4日

临床自然语言处理中的嵌入综述，SECNLP: A survey of embeddings

临床自然语言处理中的嵌入综述，SECNLP: A survey of embeddings

专知会员服务

39+阅读 · 2020年3月23日

【新墨西哥大学】深度学习的局限性和缺陷，10页pdf，Deep Learning Limitations and Flaws

【新墨西哥大学】深度学习的局限性和缺陷，10页pdf，Deep Learning Limitations and Flaws

专知会员服务

54+阅读 · 2020年2月5日

【图机器学习论文】网络嵌入研究综述（A Survey on Network Embedding）

【图机器学习论文】网络嵌入研究综述（A Survey on Network Embedding）

专知会员服务

82+阅读 · 2019年12月16日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

专知

32+阅读 · 2022年4月28日

图节点嵌入(Node Embeddings)概述，9页pdf

图节点嵌入(Node Embeddings)概述，9页pdf

专知

15+阅读 · 2020年8月22日

最新《动态网络嵌入》综述论文，25页pdf

最新《动态网络嵌入》综述论文，25页pdf

专知

37+阅读 · 2020年6月17日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知

23+阅读 · 2020年4月4日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

图嵌入（Graph embedding）综述

图嵌入（Graph embedding）综述

人工智能前沿讲习班

449+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

深度学习 | 利用词嵌入对文本进行情感分析

深度学习 | 利用词嵌入对文本进行情感分析

沈浩老师

11+阅读 · 2017年10月19日

相关论文

On the Limits of Layer Pruning for Generative Reasoning in Large Language Models

Arxiv

0+阅读 · 4月10日

Generative Retrieval Overcomes Limitations of Dense Retrieval but Struggles with Identifier Ambiguity

Arxiv

0+阅读 · 4月8日

Generative Retrieval Overcomes Limitations of Dense Retrieval but Struggles with Identifier Ambiguity

Arxiv

0+阅读 · 4月7日

On Strengths and Limitations of Single-Vector Embeddings

Arxiv

0+阅读 · 3月31日

The Limits of Inference Scaling Through Resampling

Arxiv

0+阅读 · 3月26日

On the Challenges and Opportunities of Learned Sparse Retrieval for Code

Arxiv

0+阅读 · 3月23日

Semantic Shift: the Fundamental Challenge in Text Embedding and Retrieval

Arxiv

0+阅读 · 3月22日

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Arxiv

0+阅读 · 3月9日

The Limits of Long-Context Reasoning in Automated Bug Fixing

Arxiv

0+阅读 · 3月6日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

相关基金

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

嵌入式存储器容错设计关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

Banach空间的嵌入理论及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

基于结构图论的一般图嵌入分布的研究

国家自然科学基金

4+阅读 · 2014年12月31日

分形几何中的嵌入问题

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员