As high-dimensional vector data increasingly surpasses the processing capabilities of traditional database management systems, Vector Databases (VDBs) have emerged and become tightly integrated with large language models, being widely applied in modern artificial intelligence systems. However, existing research has primarily focused on underlying technologies such as approximate nearest neighbor search, with relatively few studies providing a systematic architectural-level review of VDBs or analyzing how these core technologies collectively support the overall capacity of VDBs. This survey aims to offer a comprehensive overview of the core designs and algorithms of VDBs, establishing a holistic understanding of this rapidly evolving field. First, we systematically review the key technologies and design principles of VDBs from the two core dimensions of storage and retrieval, tracing their technological evolution. Next, we conduct an in-depth comparison of several mainstream VDB architectures, summarizing their strengths, limitations, and typical application scenarios. Finally, we explore emerging directions for integrating VDBs with large language models, including open research challenges and trends such as novel indexing strategies. This survey serves as a systematic reference guide for researchers and practitioners, helping readers quickly grasp the technological landscape and development trends in the field of vector databases, and promoting further innovation in both theoretical and applied aspects.


翻译:随着高维向量数据日益超越传统数据库管理系统的处理能力,向量数据库应运而生,并与大语言模型紧密集成,广泛应用于现代人工智能系统。然而,现有研究主要聚焦于近似最近邻搜索等底层技术,鲜有研究从系统架构层面系统性地评述向量数据库,或分析这些核心技术如何共同支撑向量数据库的整体能力。本综述旨在全面概述向量数据库的核心设计与算法,构建对这一快速发展领域的整体认知。首先,我们从存储与检索两个核心维度出发,系统梳理了向量数据库的关键技术与设计原理,追溯其技术演进历程。接着,我们对几种主流向量数据库架构进行了深入对比,总结了各自的优势、局限及典型应用场景。最后,我们探讨了向量数据库与大语言模型集成的若干新兴方向,包括新型索引策略等开放研究挑战与趋势。本综述可为研究人员和实践者提供系统性的参考指南,帮助读者快速掌握向量数据库领域的技术格局与发展趋势,并推动其在理论与应用层面的进一步创新。

0
下载
关闭预览

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
面向具身智能的多模态数据存储与检索:综述
专知会员服务
31+阅读 · 2025年8月20日
图数据库综述
专知会员服务
18+阅读 · 2025年6月2日
智能数据库学习型索引研究综述
专知会员服务
23+阅读 · 2023年1月14日
空间数据智能:概念、技术与挑战
专知会员服务
93+阅读 · 2022年2月3日
基于机器学习的数据库技术综述
专知会员服务
55+阅读 · 2021年1月2日
专知会员服务
18+阅读 · 2020年11月8日
【大数据】大数据参考架构和关键技术(综合)
产业智能官
14+阅读 · 2018年11月22日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月8日
Arxiv
17+阅读 · 2023年12月4日
Arxiv
15+阅读 · 2023年10月21日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
面向具身智能的多模态数据存储与检索:综述
专知会员服务
31+阅读 · 2025年8月20日
图数据库综述
专知会员服务
18+阅读 · 2025年6月2日
智能数据库学习型索引研究综述
专知会员服务
23+阅读 · 2023年1月14日
空间数据智能:概念、技术与挑战
专知会员服务
93+阅读 · 2022年2月3日
基于机器学习的数据库技术综述
专知会员服务
55+阅读 · 2021年1月2日
专知会员服务
18+阅读 · 2020年11月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员