Don't Stir the Pot! Authorized Vector Data Retrieval via Access-Aware Indexing - 专知论文

会员服务 ·

0

搜索 · 数据检索 · 向量数据库 · 数据库 · 访问控制 ·

Don't Stir the Pot! Authorized Vector Data Retrieval via Access-Aware Indexing

翻译：不要搅乱局面！基于访问感知索引的授权向量数据检索

Shanshan Han,Vishal Chakraborty,Sharad Mehrotra

Vector databases increasingly enforce role-based access control, where each top-k approximate nearest neighbor query must return only vectors the querying role is authorized to access. Two extremes bracket the design space. A single global index built over all vectors avoids duplication but wastes search effort on unauthorized vectors and degrades recall, while an oracle index, built with all authorized vectors to the query roles, searches only authorized vectors but duplicates every shared vector between roles or queries. We present Veda and its efficient variant EffVeda, two indexing strategies built on an access-aware lattice to address access control in vector databases. The methods first partitions the dataset into disjoint data blocks by role combination, then leverage the structure of the access-aware lattice to apply copy and merge operations to group co-accessed blocks under a user-specified storage budget. Large nodes in the lattice are then indexed with HNSW, while small nodes are retained for linear scan. To facilitate query processing on the lattice, our methods construct a query plan that selects the minimal set of nodes that covers all authorized data for each role. At query time, coordinated search first queries pure (authorized-only) nodes to populate a global top-k heap, then leverages the resulting distance bound of the k-th data in the heap to prune exploration on impure nodes. Evaluations show that our methods deliver higher throughput at high recall while closely tracking the storage budget.

翻译：向量数据库日益强化基于角色的访问控制，要求每个top-k近似最近邻查询仅返回查询角色有权访问的向量。两种极端方案占据了设计空间的两端。一种覆盖所有向量的单一全局索引避免了数据重复，但会在未授权向量上浪费搜索精力并降低召回率；而一种基于查询角色所有授权向量构建的"神谕索引"虽仅搜索授权向量，却会导致角色间或查询间每个共享向量的重复。我们提出Veda及其高效变体EffVeda，这两种基于访问感知格结构的索引策略旨在解决向量数据库中的访问控制问题。该方法首先按角色组合将数据集划分为互不相交的数据块，随后利用访问感知格的结构特性，通过复制与合并操作将共访问块分组到用户指定的存储预算内。格中大节点采用HNSW索引，小节点则保留用于线性扫描。为加速格上查询处理，我们的方法构建了查询计划，为每个角色选择覆盖全部授权数据的最小节点集。查询时，协调搜索首先查询纯（仅授权）节点以填充全局top-k堆，随后利用堆中第k个数据的距离界对非纯节点进行剪枝探索。评估表明，我们的方法在严格遵守存储预算的同时，可在高召回率下实现更高吞吐量。

0

相关内容

互联网

人工智能专题研究：向量数据库——AI时代的技术基座，36页pdf

人工智能专题研究：向量数据库——AI时代的技术基座，36页pdf

专知会员服务

118+阅读 · 2023年6月22日

【博士论文】大数据相似查询关键技术研究

【博士论文】大数据相似查询关键技术研究

专知会员服务

24+阅读 · 2021年12月2日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【AAAI2021】使用图卷积网络拟合权值共享神经结构搜索的搜索空间，提升神经结构搜索鲁棒性

【AAAI2021】使用图卷积网络拟合权值共享神经结构搜索的搜索空间，提升神经结构搜索鲁棒性

专知会员服务

10+阅读 · 2021年2月2日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

74+阅读 · 2020年7月28日

【SIGIR2020】联合项目推荐和属性推断:一种自适应图卷积网络方法，Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach

【SIGIR2020】联合项目推荐和属性推断:一种自适应图卷积网络方法，Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach

专知会员服务

29+阅读 · 2020年5月26日

面向结构化数据的向量嵌入理论 | word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data

面向结构化数据的向量嵌入理论 | word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data

专知会员服务

52+阅读 · 2020年4月1日

【CCF优秀博士学位论文奖-2019提名】大规模图数据查询处理关键技术研究，东北大学成雨蓉

【CCF优秀博士学位论文奖-2019提名】大规模图数据查询处理关键技术研究，东北大学成雨蓉

专知会员服务

32+阅读 · 2019年11月8日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

新智元

45+阅读 · 2019年7月8日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

腾讯词向量实战：通过Annoy进行索引和快速查询

腾讯词向量实战：通过Annoy进行索引和快速查询

AINLP

11+阅读 · 2019年4月18日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

【论文推荐】最新十篇推荐系统相关论文—内容感知、图卷积神经网络、博弈论、个性化排序、元学习、xDeepFM

【论文推荐】最新十篇推荐系统相关论文—内容感知、图卷积神经网络、博弈论、个性化排序、元学习、xDeepFM

专知

21+阅读 · 2018年6月18日

【Wikidata】维基数据详解

【Wikidata】维基数据详解

专知

22+阅读 · 2018年4月26日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向云的个人健康档案动态访问权限管理研究

国家自然科学基金

1+阅读 · 2015年12月31日

有向传感器网络量化跟踪技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

三维场景中基于空间方向关系的混合索引结构研究

国家自然科学基金

0+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向隐私保护的云数据访问模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

Efficient Graph Indexing for Interval-Aware Vector Search

Arxiv

0+阅读 · 6月10日

Indexicon: A Spatial Indexing Library

Arxiv

0+阅读 · 6月3日

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

Arxiv

0+阅读 · 5月28日

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Arxiv

0+阅读 · 5月22日

LEMUR: Learned Multi-Vector Retrieval

Arxiv

0+阅读 · 5月21日

Why Ask One When You Can Ask $k$? Learning-to-Defer to the Top-$k$ Experts

Arxiv

0+阅读 · 5月20日

Decoupling Vector Data and Index Storage for Space Efficiency

Arxiv

0+阅读 · 5月15日

Don't Be a Pot Stirrer! Authorized Vector Data Retrieval via Access-Aware Indexing

Arxiv

0+阅读 · 5月12日

NAVIS: Concurrent Search and Update with Low Position-Seeking Overhead in On-SSD Graph-Based Vector Search

Arxiv

0+阅读 · 5月12日

Survey of Vector Database Management Systems

Arxiv

15+阅读 · 2023年10月21日

VIP会员

文章信息

相关主题

向量数据库

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

1+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

人工智能专题研究：向量数据库——AI时代的技术基座，36页pdf

人工智能专题研究：向量数据库——AI时代的技术基座，36页pdf

专知会员服务

118+阅读 · 2023年6月22日

【博士论文】大数据相似查询关键技术研究

【博士论文】大数据相似查询关键技术研究

专知会员服务

24+阅读 · 2021年12月2日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【AAAI2021】使用图卷积网络拟合权值共享神经结构搜索的搜索空间，提升神经结构搜索鲁棒性

【AAAI2021】使用图卷积网络拟合权值共享神经结构搜索的搜索空间，提升神经结构搜索鲁棒性

专知会员服务

10+阅读 · 2021年2月2日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

74+阅读 · 2020年7月28日

【SIGIR2020】联合项目推荐和属性推断:一种自适应图卷积网络方法，Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach

【SIGIR2020】联合项目推荐和属性推断:一种自适应图卷积网络方法，Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach

专知会员服务

29+阅读 · 2020年5月26日

面向结构化数据的向量嵌入理论 | word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data

面向结构化数据的向量嵌入理论 | word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data

专知会员服务

52+阅读 · 2020年4月1日

【CCF优秀博士学位论文奖-2019提名】大规模图数据查询处理关键技术研究，东北大学成雨蓉

【CCF优秀博士学位论文奖-2019提名】大规模图数据查询处理关键技术研究，东北大学成雨蓉

专知会员服务

32+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

新智元

45+阅读 · 2019年7月8日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

腾讯词向量实战：通过Annoy进行索引和快速查询

腾讯词向量实战：通过Annoy进行索引和快速查询

AINLP

11+阅读 · 2019年4月18日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

【论文推荐】最新十篇推荐系统相关论文—内容感知、图卷积神经网络、博弈论、个性化排序、元学习、xDeepFM

【论文推荐】最新十篇推荐系统相关论文—内容感知、图卷积神经网络、博弈论、个性化排序、元学习、xDeepFM

专知

21+阅读 · 2018年6月18日

【Wikidata】维基数据详解

【Wikidata】维基数据详解

专知

22+阅读 · 2018年4月26日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

Efficient Graph Indexing for Interval-Aware Vector Search

Arxiv

0+阅读 · 6月10日

Indexicon: A Spatial Indexing Library

Arxiv

0+阅读 · 6月3日

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

Arxiv

0+阅读 · 5月28日

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Arxiv

0+阅读 · 5月22日

LEMUR: Learned Multi-Vector Retrieval

Arxiv

0+阅读 · 5月21日

Why Ask One When You Can Ask $k$? Learning-to-Defer to the Top-$k$ Experts

Arxiv

0+阅读 · 5月20日

Decoupling Vector Data and Index Storage for Space Efficiency

Arxiv

0+阅读 · 5月15日

Don't Be a Pot Stirrer! Authorized Vector Data Retrieval via Access-Aware Indexing

Arxiv

0+阅读 · 5月12日

NAVIS: Concurrent Search and Update with Low Position-Seeking Overhead in On-SSD Graph-Based Vector Search

Arxiv

0+阅读 · 5月12日

Survey of Vector Database Management Systems

Arxiv

15+阅读 · 2023年10月21日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向云的个人健康档案动态访问权限管理研究

国家自然科学基金

1+阅读 · 2015年12月31日

有向传感器网络量化跟踪技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

三维场景中基于空间方向关系的混合索引结构研究

国家自然科学基金

0+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向隐私保护的云数据访问模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员