From HNSW to Information-Theoretic Binarization: Rethinking the Architecture of Scalable Vector Search - 专知论文

会员服务 ·

0

精度 · 搜索 · 系统 · 近似 · 最近邻 ·

2025 年 12 月 16 日

From HNSW to Information-Theoretic Binarization: Rethinking the Architecture of Scalable Vector Search

翻译：从HNSW到信息论二值化：重新思考可扩展向量搜索的架构

Seyed Moein Abtahi,Majid Fekri,Tara Khani,Akramul Azim

from arxiv, 16 Pages, 5 Figures, 3 Tables

Modern semantic search and retrieval-augmented generation (RAG) systems rely predominantly on in-memory approximate nearest neighbor (ANN) indexes over high-precision floating-point vectors, resulting in escalating operational cost and inherent trade-offs between latency, throughput, and retrieval accuracy. This paper analyzes the architectural limitations of the dominant "HNSW + float32 + cosine similarity" stack and evaluates existing cost-reduction strategies, including storage disaggregation and lossy vector quantization, which inevitably sacrifice either performance or accuracy. We introduce and empirically evaluate an alternative information-theoretic architecture based on maximally informative binarization (MIB), efficient bitwise distance metrics, and an information-theoretic scoring (ITS) mechanism. Unlike conventional ANN systems, this approach enables exhaustive search over compact binary representations, allowing deterministic retrieval and eliminating accuracy degradation under high query concurrency. Using the MAIR benchmark across 14 datasets and 10,038 queries, we compare this architecture against Elasticsearch, Pinecone, PGVector, and Qdrant. Results demonstrate retrieval quality comparable to full-precision systems, while achieving substantially lower latency and maintaining constant throughput at high request rates. We show that this architectural shift enables a truly serverless, cost-per-query deployment model, challenging the necessity of large in-memory ANN indexes for high-quality semantic search.

翻译：现代语义搜索与检索增强生成系统主要依赖于基于高精度浮点向量的内存近似最近邻索引，这导致运营成本不断攀升，并在延迟、吞吐量与检索精度之间形成固有的权衡。本文分析了当前主流的"HNSW + float32 + 余弦相似度"技术栈的架构局限性，评估了现有成本降低策略（包括存储解耦和有损向量量化）——这些策略不可避免地需要牺牲性能或精度。我们提出并实证评估了一种基于信息论的替代架构，该架构融合了最大化信息二值化、高效按位距离度量以及信息论评分机制。与传统近似最近邻系统不同，该方法支持对紧凑二进制表示进行穷举搜索，实现确定性检索，并消除了高查询并发下的精度衰减问题。通过在14个数据集和10,038条查询上使用MAIR基准测试，我们将该架构与Elasticsearch、Pinecone、PGVector和Qdrant进行对比。结果表明，该架构在保持与全精度系统相当检索质量的同时，实现了显著降低的延迟，并在高请求率下维持恒定吞吐量。我们证明，这种架构转变能够实现真正的按查询付费无服务器部署模式，从而对高质量语义搜索必须依赖大型内存近似最近邻索引的必要性提出了挑战。

0

相关内容

迈向可信的检索增强生成：大语言模型综述

迈向可信的检索增强生成：大语言模型综述

专知会员服务

30+阅读 · 2025年2月12日

【2023新书】《二值神经网络：算法、架构和应用》

【2023新书】《二值神经网络：算法、架构和应用》

专知会员服务

66+阅读 · 2023年10月26日

大模型如何用向量数据库？清华等最新《向量数据库管理系统》综述

大模型如何用向量数据库？清华等最新《向量数据库管理系统》综述

专知会员服务

82+阅读 · 2023年10月24日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf， Large-scale and high-dimensional statistical learning methods and algorithms

专知会员服务

26+阅读 · 2020年6月13日

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

专知会员服务

197+阅读 · 2020年5月14日

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

专知会员服务

53+阅读 · 2020年4月8日

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

专知会员服务

59+阅读 · 2020年3月19日

密歇根大学28页最新《GANs生成式对抗网络综述：算法、理论与应用》最新论文，带你全面了解GAN技术趋势

密歇根大学28页最新《GANs生成式对抗网络综述：算法、理论与应用》最新论文，带你全面了解GAN技术趋势

专知会员服务

105+阅读 · 2020年2月17日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

22篇论文！增量学习/终生学习论文资源列表

22篇论文！增量学习/终生学习论文资源列表

专知

32+阅读 · 2018年12月27日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

【下载】面向搜索的深度学习实战书籍和代码《Deep Learning for Search》

【下载】面向搜索的深度学习实战书籍和代码《Deep Learning for Search》

专知

25+阅读 · 2017年12月11日

综述 | 知识图谱向量化表示

综述 | 知识图谱向量化表示

开放知识图谱

33+阅读 · 2017年10月26日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

战略构想、知识搜寻与双元导向下企业技术创新能力演进：基于适应性演进和协同视角

国家自然科学基金

2+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Arxiv

0+阅读 · 2月15日

Breaking the Curse of Dimensionality: On the Stability of Modern Vector Retrieval

Arxiv

0+阅读 · 2月12日

SIGHT: Reinforcement Learning with Self-Evidence and Information-Gain Diverse Branching for Search Agent

Arxiv

0+阅读 · 2月12日

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Arxiv

0+阅读 · 2月12日

Filtered Approximate Nearest Neighbor Search in Vector Databases: System Design and Performance Analysis

Arxiv

0+阅读 · 2月11日

GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions

Arxiv

0+阅读 · 2月10日

Scaling Search-Augmented LLM Reasoning via Adaptive Information Control

Arxiv

0+阅读 · 2月2日

Updatable Balanced Index for Stable Streaming Similarity Search over Large-Scale Fresh Vectors

Arxiv

0+阅读 · 1月31日

Capturing P: On the Expressive Power and Efficient Evaluation of Boolean Retrieval

Arxiv

0+阅读 · 1月26日

SVFusion: A CPU-GPU Co-Processing Architecture for Large-Scale Real-Time Vector Search

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

迈向可信的检索增强生成：大语言模型综述

迈向可信的检索增强生成：大语言模型综述

专知会员服务

30+阅读 · 2025年2月12日

【2023新书】《二值神经网络：算法、架构和应用》

【2023新书】《二值神经网络：算法、架构和应用》

专知会员服务

66+阅读 · 2023年10月26日

大模型如何用向量数据库？清华等最新《向量数据库管理系统》综述

大模型如何用向量数据库？清华等最新《向量数据库管理系统》综述

专知会员服务

82+阅读 · 2023年10月24日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf， Large-scale and high-dimensional statistical learning methods and algorithms

专知会员服务

26+阅读 · 2020年6月13日

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

专知会员服务

197+阅读 · 2020年5月14日

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

专知会员服务

53+阅读 · 2020年4月8日

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

专知会员服务

59+阅读 · 2020年3月19日

密歇根大学28页最新《GANs生成式对抗网络综述：算法、理论与应用》最新论文，带你全面了解GAN技术趋势

密歇根大学28页最新《GANs生成式对抗网络综述：算法、理论与应用》最新论文，带你全面了解GAN技术趋势

专知会员服务

105+阅读 · 2020年2月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

22篇论文！增量学习/终生学习论文资源列表

22篇论文！增量学习/终生学习论文资源列表

专知

32+阅读 · 2018年12月27日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

【下载】面向搜索的深度学习实战书籍和代码《Deep Learning for Search》

【下载】面向搜索的深度学习实战书籍和代码《Deep Learning for Search》

专知

25+阅读 · 2017年12月11日

综述 | 知识图谱向量化表示

综述 | 知识图谱向量化表示

开放知识图谱

33+阅读 · 2017年10月26日

相关论文

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Arxiv

0+阅读 · 2月15日

Breaking the Curse of Dimensionality: On the Stability of Modern Vector Retrieval

Arxiv

0+阅读 · 2月12日

SIGHT: Reinforcement Learning with Self-Evidence and Information-Gain Diverse Branching for Search Agent

Arxiv

0+阅读 · 2月12日

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Arxiv

0+阅读 · 2月12日

Filtered Approximate Nearest Neighbor Search in Vector Databases: System Design and Performance Analysis

Arxiv

0+阅读 · 2月11日

GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions

Arxiv

0+阅读 · 2月10日

Scaling Search-Augmented LLM Reasoning via Adaptive Information Control

Arxiv

0+阅读 · 2月2日

Updatable Balanced Index for Stable Streaming Similarity Search over Large-Scale Fresh Vectors

Arxiv

0+阅读 · 1月31日

Capturing P: On the Expressive Power and Efficient Evaluation of Boolean Retrieval

Arxiv

0+阅读 · 1月26日

SVFusion: A CPU-GPU Co-Processing Architecture for Large-Scale Real-Time Vector Search

Arxiv

0+阅读 · 1月13日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

战略构想、知识搜寻与双元导向下企业技术创新能力演进：基于适应性演进和协同视角

国家自然科学基金

2+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员